論文の概要: SFA: Scan, Focus, and Amplify toward Guidance-aware Answering for Video TextVQA
- arxiv url: http://arxiv.org/abs/2511.20190v1
- Date: Tue, 25 Nov 2025 11:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.420597
- Title: SFA: Scan, Focus, and Amplify toward Guidance-aware Answering for Video TextVQA
- Title(参考訳): SFA:Scan, Focus, and Amplify to Guidance-Aware Answering for Video TextVQA
- Authors: Haibin He, Qihuang Zhong, Juhua Liu, Bo Du, Peng Wang, Jing Zhang,
- Abstract要約: ビデオテキストベースの視覚的質問応答(Video TextVQA)タスクは、ビデオ内に現れる視覚的テキストを活用することで、ビデオに関する質問に答えることを目的としている。
このタスクは、フレーム毎にスケール、向き、明度が異なるシーンテキストを正確に知覚し、理解するモデルを必要とする、重大な課題を生じさせる。
本研究では,ビデオテキストVQAに適したトレーニングフリーのフレームワークであるSFAと,質問に答える人間のプロセスに動機づけられたビデオ-LLMベースの最初の手法を提案する。
- 参考スコア(独自算出の注目度): 44.90805518708208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video text-based visual question answering (Video TextVQA) task aims to answer questions about videos by leveraging the visual text appearing within the videos. This task poses significant challenges, requiring models to accurately perceive and comprehend scene text that varies in scale, orientation, and clarity across frames, while effectively integrating temporal and semantic context to generate precise answers. Moreover, the model must identify question-relevant textual cues and filter out redundant or irrelevant information to ensure answering is guided by the most relevant and informative cues. To address these challenges, we propose SFA, a training-free framework and the first Video-LLM-based method tailored for Video TextVQA, motivated by the human process of answering questions. By adaptively scanning video frames, selectively focusing on key regions, and directly amplifying them, SFA effectively guides the Video-LLM's attention toward essential cues, enabling it to generate more accurate answers. SFA achieves new state-of-the-art results across several public Video TextVQA datasets and surpasses previous methods by a substantial margin, demonstrating its effectiveness and generalizability.
- Abstract(参考訳): ビデオテキストベースの視覚的質問応答(Video TextVQA)タスクは、ビデオ内に現れる視覚的テキストを活用することで、ビデオに関する質問に答えることを目的としている。
この課題は、時間的・意味的なコンテキストを効果的に統合し、正確な回答を生成する一方で、フレームの規模、向き、明度が異なるシーンテキストを正確に知覚し、理解する必要がある。
さらに、モデルは、質問関連テキストの手がかりを特定し、最も関連性があり情報性の高い手がかりによって回答が導かれることを保証するために、冗長または無関係な情報をフィルタリングする必要がある。
これらの課題に対処するため,ビデオテキストVQAに適したトレーニングフリーのフレームワークであるSFAと,質問に答える人間のプロセスによって動機付けられるビデオ-LLMベースの手法を提案する。
ビデオフレームを適応的にスキャンし、キー領域に選択的にフォーカスし、それらを直接増幅することにより、SFAはビデオLLMの注意を必須の手がかりへと誘導し、より正確な回答を生成することができる。
SFAは、いくつかのパブリックなVideo TextVQAデータセットにまたがって、新しい最先端の結果を達成し、その有効性と一般化性を示し、従来の手法をかなり上回っている。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - FIQ: Fundamental Question Generation with the Integration of Question Embeddings for Video Question Answering [26.585985828583304]
ビデオ質問(英語: Video question of answering、VQA)とは、ある質問に答えるためにビデオの解釈を必要とするタスクである。
本稿では,ビデオの基本的な理解を深めることにより,モデルの推論能力を高めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T06:19:38Z) - Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues [8.797350517975477]
ビデオテキストベースの視覚的質問応答 (Video TextVQA) は、あるビデオにおいて、共同でテキストによる推論と視覚情報によって質問に答えることを目的とした実践的なタスクである。
画像からビデオへ生成するTextVQAフレームワークをより良く拡張するTEA(stands for textbfTrack thbfE bftextA languageser'')手法を提案する。
論文 参考訳(メタデータ) (2024-12-17T03:06:12Z) - Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering [13.294004180200496]
我々は,マルチモーダルな知識をよりよく統合する3つの主要なイノベーションを取り入れたローカル・グローバル質問意識ビデオ埋め込み(LGQAVE)を紹介した。
LGQAVEは、質問に関する最も関連性の高いフレームを正確に識別するクロスアテンション機構を利用することで、従来のアドホックフレームサンプリングを越えている。
追加のクロスアテンションモジュールは、これらのローカルおよびグローバルな埋め込みを統合して、最終ビデオ埋め込みを生成する。
論文 参考訳(メタデータ) (2024-12-12T12:39:07Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。