論文の概要: Gather and Trace: Rethinking Video TextVQA from an Instance-oriented Perspective
- arxiv url: http://arxiv.org/abs/2508.04197v1
- Date: Wed, 06 Aug 2025 08:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.627551
- Title: Gather and Trace: Rethinking Video TextVQA from an Instance-oriented Perspective
- Title(参考訳): Gather and Trace: インスタンス指向の観点からのビデオテキストVQAを再考する
- Authors: Yan Zhang, Gangyan Zeng, Daiqing Wu, Huawen Shen, Binbin Li, Yu Zhou, Can Ma, Xiaojun Bi,
- Abstract要約: ビデオテキストベースの視覚的質問応答(Video TextVQA)は、ビデオに関連するテキストを明示的に推論することで、質問に答えることを目的としている。
この分野でのほとんどの作業は、冗長なテキストエンティティと暗黙の関係モデリングに苦しむフレームレベルのフレームワークに従う。
本稿では,ビデオテキストVQAタスクのためのGAT(Gather and Trace)と呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 11.379162727778361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video text-based visual question answering (Video TextVQA) aims to answer questions by explicitly reading and reasoning about the text involved in a video. Most works in this field follow a frame-level framework which suffers from redundant text entities and implicit relation modeling, resulting in limitations in both accuracy and efficiency. In this paper, we rethink the Video TextVQA task from an instance-oriented perspective and propose a novel model termed GAT (Gather and Trace). First, to obtain accurate reading result for each video text instance, a context-aggregated instance gathering module is designed to integrate the visual appearance, layout characteristics, and textual contents of the related entities into a unified textual representation. Then, to capture dynamic evolution of text in the video flow, an instance-focused trajectory tracing module is utilized to establish spatio-temporal relationships between instances and infer the final answer. Extensive experiments on several public Video TextVQA datasets validate the effectiveness and generalization of our framework. GAT outperforms existing Video TextVQA methods, video-language pretraining methods, and video large language models in both accuracy and inference speed. Notably, GAT surpasses the previous state-of-the-art Video TextVQA methods by 3.86\% in accuracy and achieves ten times of faster inference speed than video large language models. The source code is available at https://github.com/zhangyan-ucas/GAT.
- Abstract(参考訳): ビデオテキストベースの視覚的質問応答(Video TextVQA)は、ビデオに関連するテキストを明示的に読み、推論することで、質問に答えることを目的としている。
この分野でのほとんどの研究は、冗長なテキストエンティティと暗黙の関係モデリングに苦しむフレームレベルのフレームワークに従い、精度と効率の両方に制限をもたらす。
本稿では,ビデオテキストVQAタスクをインスタンス指向の観点から再考し,GAT(Gather and Trace)と呼ばれる新しいモデルを提案する。
まず、各ビデオテキストインスタンスの正確な読み出し結果を得るために、関連エンティティの視覚的外観、レイアウト特性、テキスト内容を統一されたテキスト表現に統合するコンテキスト集約型インスタンス収集モジュールを設計する。
そして、ビデオフロー中のテキストの動的進化を捉えるために、インスタンス中心の軌跡追跡モジュールを用いて、インスタンス間の時空間的関係を確立し、最終回答を推測する。
いくつかの公開ビデオTextVQAデータセットに対する大規模な実験により、我々のフレームワークの有効性と一般化が検証された。
GATは、既存のビデオテキストVQA法、ビデオ言語事前学習法、およびビデオ大言語モデルを精度と推論速度の両方で上回っている。
特に、GATは従来の最先端のVideo TextVQA手法を3.86倍の精度で超え、ビデオ大言語モデルよりも10倍高速な推論速度を実現している。
ソースコードはhttps://github.com/zhangyan-ucas/GAT.comで公開されている。
関連論文リスト
- Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues [8.797350517975477]
ビデオテキストベースの視覚的質問応答 (Video TextVQA) は、あるビデオにおいて、共同でテキストによる推論と視覚情報によって質問に答えることを目的とした実践的なタスクである。
画像からビデオへ生成するTextVQAフレームワークをより良く拡張するTEA(stands for textbfTrack thbfE bftextA languageser'')手法を提案する。
論文 参考訳(メタデータ) (2024-12-17T03:06:12Z) - Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Bi-Calibration Networks for Weakly-Supervised Video Representation
Learning [153.54638582696128]
本稿では,弱い教師付きビデオ表現学習を促進するために,問合せとテキストの相互校正の新たな設計を提案する。
本稿では,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。
BCNは3MのWebビデオで学習し、下流タスクの線形モデルプロトコルの下で優れた結果を得る。
論文 参考訳(メタデータ) (2022-06-21T16:02:12Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。