論文の概要: GloTSFormer: Global Video Text Spotting Transformer
- arxiv url: http://arxiv.org/abs/2401.03694v1
- Date: Mon, 8 Jan 2024 06:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:23:59.667164
- Title: GloTSFormer: Global Video Text Spotting Transformer
- Title(参考訳): GloTSFormer:グローバルビデオテキストスポッティング変換器
- Authors: Han Wang and Yanjie Wang and Yang Li and Can Huang
- Abstract要約: ビデオテキストスポッティング(VTS)は、ビデオ中のテキストの軌跡や内容を予測することを目的とした、基本的な視覚的タスクである。
従来の作業は通常、局所的なアソシエーションを行い、IoUベースの距離と複雑な後処理の手順を適用してパフォーマンスを向上させる。
本稿では,追跡問題をグローバルアソシエーションとしてモデル化するために,Global Video Text Spotting Transformer GloTSFormerを提案する。
- 参考スコア(独自算出の注目度): 11.85375141523104
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Text Spotting (VTS) is a fundamental visual task that aims to predict
the trajectories and content of texts in a video. Previous works usually
conduct local associations and apply IoU-based distance and complex
post-processing procedures to boost performance, ignoring the abundant temporal
information and the morphological characteristics in VTS. In this paper, we
propose a novel Global Video Text Spotting Transformer GloTSFormer to model the
tracking problem as global associations and utilize the Gaussian Wasserstein
distance to guide the morphological correlation between frames. Our main
contributions can be summarized as three folds. 1). We propose a
Transformer-based global tracking method GloTSFormer for VTS and associate
multiple frames simultaneously. 2). We introduce a Wasserstein distance-based
method to conduct positional associations between frames. 3). We conduct
extensive experiments on public datasets. On the ICDAR2015 video dataset,
GloTSFormer achieves 56.0 MOTA with 4.6 absolute improvement compared with the
previous SOTA method and outperforms the previous Transformer-based method by a
significant 8.3 MOTA.
- Abstract(参考訳): ビデオテキストスポッティング(VTS)は、ビデオ中のテキストの軌跡や内容を予測するための基本的な視覚的タスクである。
従来の作業は通常、局所的な関連を行ない、IoUベースの距離と複雑な後処理の手順を適用してパフォーマンスを高め、VTSの豊富な時間的情報や形態的特性を無視している。
本稿では,追跡問題をグローバルアソシエーションとしてモデル化する新しいグローバルビデオテキストスポッティングトランスglotsformerを提案し,ガウス的ワッサースタイン距離を用いてフレーム間の形態的相関を導出する。
主なコントリビューションは3つにまとめることができます。
1).
本稿では,複数のフレームを同時に関連付けるトランスフォーマーを用いたグローバルトラッキング手法GloTSFormerを提案する。
2).
フレーム間の位置関連を行うためのワッサーシュタイン距離に基づく手法を提案する。
3).
公開データセットに関する広範な実験を行う。
ICDAR2015ビデオデータセットでは、GloTSFormerは以前のSOTA法と比較して4.6の絶対改善で56.0 MOTAを達成し、トランスフォーマーベースの手法を8.3 MOTAで上回っている。
関連論文リスト
- GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers [53.80009458891537]
クロスビュービデオのジオローカライゼーションは、ストリートビュービデオからGPSトラジェクトリを空中ビュー画像と整列させることを目的としている。
現在のCVGL法では、現実のシナリオでは一般的に欠落しているカメラとオドメトリーのデータを使用する。
本稿では,カメラやオドメトリーデータを必要としないCVGLのフルトランスフォーマ方式であるGAReTを提案する。
論文 参考訳(メタデータ) (2024-08-05T21:29:33Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Fine-grained Text-Video Retrieval with Frozen Image Encoders [10.757101644990273]
2段階のテキストビデオ検索アーキテクチャであるCrossTVRを提案する。
第1段階では,既存のTVR手法とコサイン類似性ネットワークを利用して,効率的なテキスト/ビデオ候補選択を行う。
第2段階では,空間次元と時間次元の細粒度マルチモーダル情報をキャプチャするビデオテキストクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-14T02:57:00Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - End-to-End Video Text Spotting with Transformer [86.46724646835627]
我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
論文 参考訳(メタデータ) (2022-03-20T12:14:58Z) - CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text
Retrieval [14.022356429411934]
本稿では,CLIP2TVについて紹介する。
特に、CLIP2TVは、MSR-VTTデータセット上で52.9@R1を達成し、以前のSOTA結果よりも4.1%向上した。
論文 参考訳(メタデータ) (2021-11-10T10:05:11Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。