論文の概要: Can I Trust Your Answer? Visually Grounded Video Question Answering
- arxiv url: http://arxiv.org/abs/2309.01327v2
- Date: Sat, 30 Mar 2024 06:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 15:44:31.015419
- Title: Can I Trust Your Answer? Visually Grounded Video Question Answering
- Title(参考訳): 答えは信用できますか? ビデオで答える質問
- Authors: Junbin Xiao, Angela Yao, Yicong Li, Tat Seng Chua,
- Abstract要約: 本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
- 参考スコア(独自算出の注目度): 88.11169242115416
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study visually grounded VideoQA in response to the emerging trends of utilizing pretraining techniques for video-language understanding. Specifically, by forcing vision-language models (VLMs) to answer questions and simultaneously provide visual evidence, we seek to ascertain the extent to which the predictions of such techniques are genuinely anchored in relevant video content, versus spurious correlations from language or irrelevant visual context. Towards this, we construct NExT-GQA -- an extension of NExT-QA with 10.5$K$ temporal grounding (or location) labels tied to the original QA pairs. With NExT-GQA, we scrutinize a series of state-of-the-art VLMs. Through post-hoc attention analysis, we find that these models are extremely weak in substantiating the answers despite their strong QA performance. This exposes the limitation of current VLMs in making reliable predictions. As a remedy, we further explore and propose a grounded-QA method via Gaussian mask optimization and cross-modal learning. Experiments with different backbones demonstrate that this grounding mechanism improves both grounding and QA. With these efforts, we aim to push towards trustworthy VLMs in VQA systems. Our dataset and code are available at https://github.com/doc-doc/NExT-GQA.
- Abstract(参考訳): 本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
具体的には、視覚言語モデル(VLM)に質問に答え、同時に視覚的証拠を提供するよう強制することで、これらの手法の予測が、言語や無関係な視覚的文脈からの素早い相関よりも、実際に関連ビデオコンテンツに固定されているかを確認することを試みる。
そこで, NExT-GQA を 10.5$K の時間的接地(あるいは位置)ラベルで拡張した NExT-GQA を構築する。
NExT-GQAでは、最先端のVLMのシリーズを精査する。
ポストホックアテンション分析により,これらのモデルでは,QA性能が強いにもかかわらず,回答の裏付けが極めて弱いことが判明した。
これは、信頼性のある予測を行う際の現在のVLMの制限を明らかにする。
本稿では,ガウスマスク最適化とクロスモーダル学習による接地型QA手法をさらに探求し,提案する。
異なるバックボーンを用いた実験では、この接地機構が接地とQAの両方を改善することが示されている。
これらの取り組みにより,VQAシステムにおける信頼性の高いVLMの実現を目指す。
データセットとコードはhttps://github.com/doc-doc/NExT-GQA.comで公開されています。
関連論文リスト
- Large Language Models are Temporal and Causal Reasoners for Video
Question Answering [16.722148605611146]
大規模言語モデル(LLM)は、幅広い自然言語理解および生成タスクにおいて顕著なパフォーマンスを示している。
本稿では、新しいフレームワークFlipped-VQAを提案し、$langle$V, Q, A$rangle$ tripletのすべての組み合わせを予測することをモデルに推奨する。
Flipped-VQAは言語的ショートカットの活用を促進させるだけでなく、言語バイアスを緩和する。
論文 参考訳(メタデータ) (2023-10-24T11:44:39Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。