論文の概要: Scene-Text Grounding for Text-Based Video Question Answering
- arxiv url: http://arxiv.org/abs/2409.14319v1
- Date: Sun, 22 Sep 2024 05:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:15:03.711150
- Title: Scene-Text Grounding for Text-Based Video Question Answering
- Title(参考訳): テキストによるビデオ質問応答のためのシーンテキストグラウンドリング
- Authors: Sheng Zhou, Junbin Xiao, Xun Yang, Peipei Song, Dan Guo, Angela Yao, Meng Wang, Tat-Seng Chua,
- Abstract要約: テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。
我々は,モデルに質問への回答を強制し,関連するシーンテキスト領域を解釈させることにより,グラウンドドテキストビデオQAを研究する。
- 参考スコア(独自算出の注目度): 97.1112579979614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing efforts in text-based video question answering (TextVideoQA) are criticized for their opaque decisionmaking and heavy reliance on scene-text recognition. In this paper, we propose to study Grounded TextVideoQA by forcing models to answer questions and spatio-temporally localize the relevant scene-text regions, thus decoupling QA from scenetext recognition and promoting research towards interpretable QA. The task has three-fold significance. First, it encourages scene-text evidence versus other short-cuts for answer predictions. Second, it directly accepts scene-text regions as visual answers, thus circumventing the problem of ineffective answer evaluation by stringent string matching. Third, it isolates the challenges inherited in VideoQA and scene-text recognition. This enables the diagnosis of the root causes for failure predictions, e.g., wrong QA or wrong scene-text recognition? To achieve Grounded TextVideoQA, we propose the T2S-QA model that highlights a disentangled temporal-to-spatial contrastive learning strategy for weakly-supervised scene-text grounding and grounded TextVideoQA. To facilitate evaluation, we construct a new dataset ViTXT-GQA which features 52K scene-text bounding boxes within 2.2K temporal segments related to 2K questions and 729 videos. With ViTXT-GQA, we perform extensive experiments and demonstrate the severe limitations of existing techniques in Grounded TextVideoQA. While T2S-QA achieves superior results, the large performance gap with human leaves ample space for improvement. Our further analysis of oracle scene-text inputs posits that the major challenge is scene-text recognition. To advance the research of Grounded TextVideoQA, our dataset and code are at \url{https://github.com/zhousheng97/ViTXT-GQA.git}
- Abstract(参考訳): テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。
本稿では,シーンテキスト領域の時空間的ローカライズをモデルに強制し,シーンテキスト認識からQAを分離し,解釈可能なQAに向けた研究を促進することによって,グラウンドドテキストビデオQAを研究することを提案する。
その仕事は3倍の意義がある。
まず、シーンテキストのエビデンスを他のショートカットと比較して、回答の予測を推奨する。
第2に、シーンテキスト領域を直接視覚的回答として受け入れ、文字列マッチングによる非効率な回答評価の問題を回避している。
第3に、ビデオQAとシーンテキスト認識で継承された課題を分離する。
これにより、失敗予測の根本原因(例えば、間違ったQAや間違ったシーンテキスト認識など)の診断が可能になる。
弱教師付きシーン・テキスト・グラウンドイングとグラウンドド・テキスト・コントラスト学習を両立させるT2S-QAモデルを提案する。
評価を容易にするために,52Kのシーンテキスト境界ボックスを,2Kの質問と729の動画に関連する2.2Kの時間セグメント内に配置した新しいデータセットViTXT-GQAを構築した。
また,VTXT-GQAを用いて実験を行い,既存の手法の厳密な限界を実証する。
T2S-QAは優れた結果が得られたが、ヒトの葉に対する大きな性能ギャップは改善の余地が十分にある。
オラクルのシーンテキスト入力のさらなる分析は、シーンテキスト認識が大きな課題であることを示している。
Grounded TextVideoQAの研究を進めるために、我々のデータセットとコードは \url{https://github.com/zhousheng97/ViTXT-GQA.git} にある。
関連論文リスト
- ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering [0.5803309695504829]
テキストベースのVQAの主な課題は、シーンテキストの意味と情報を活用することである。
近年の研究では、画像中のシーンテキストの空間的情報を考慮することでこの問題に対処している。
ベトナム語で書かれたシーンテキストからの情報を効果的に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:00:03Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - RUArt: A Novel Text-Centered Solution for Text-Based Visual Question
Answering [14.498144268367541]
テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) と呼ばれる新しいテキスト中心方式を提案する。
RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2020-10-24T15:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。