Fugu-MT 論文翻訳(概要): Can I Trust Your Answer? Visually Grounded Video Question Answering

論文の概要: Can I Trust Your Answer? Visually Grounded Video Question Answering

arxiv url: http://arxiv.org/abs/2309.01327v1
Date: Mon, 4 Sep 2023 03:06:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 20:02:17.515980
Title: Can I Trust Your Answer? Visually Grounded Video Question Answering
Title（参考訳）: あなたの答えを信用できますか。視覚的に接地したビデオ質問応答
Authors: Junbin Xiao, Angela Yao, Yicong Li, Tat Seng Chua
Abstract要約: 本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。 NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
参考スコア（独自算出の注目度）: 96.2556940692861
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study visually grounded VideoQA in response to the emerging trends of utilizing pretraining techniques for video-language understanding. Specifically, by forcing vision-language models (VLMs) to answer questions and simultaneously provide visual evidence, we seek to ascertain the extent to which the predictions of such techniques are genuinely anchored in relevant video content, versus spurious correlations from language or irrelevant visual context. Towards this, we construct NExT-GQA -- an extension of NExT-QA with 10.5$K$ temporal grounding (or location) labels tied to the original QA pairs. With NExT-GQA, we scrutinize a variety of state-of-the-art VLMs. Through post-hoc attention analysis, we find that these models are weak in substantiating the answers despite their strong QA performance. This exposes a severe limitation of these models in making reliable predictions. As a remedy, we further explore and suggest a video grounding mechanism via Gaussian mask optimization and cross-modal learning. Experiments with different backbones demonstrate that this grounding mechanism improves both video grounding and QA. Our dataset and code are released. With these efforts, we aim to push towards the reliability of deploying VLMs in VQA systems.
Abstract（参考訳）: 本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。具体的には、視覚言語モデル(VLM)に質問に答え、同時に視覚的証拠を提供するよう強制することで、これらの手法の予測が、言語や無関係な視覚的文脈からの素早い相関よりも、実際に関連ビデオコンテンツに固定されているかを確認することを試みる。そこで, NExT-GQA を 10.5$K の時間的接地(あるいは位置)ラベルで拡張した NExT-GQA を構築する。 NExT-GQAでは、様々な最先端のVLMを精査する。ポストホックアテンション分析により,これらのモデルではQA性能が強いにもかかわらず,回答を裏付けるには弱いことがわかった。これにより、信頼性のある予測を行う上で、これらのモデルに厳しい制限が生じる。改善策として,gaussian mask optimization とcross-modal learning によるビデオグラウンド機構の探索と提案を行う。異なるバックボーンを用いた実験では、この接地機構がビデオ接地とQAの両方を改善することが示されている。データセットとコードはリリースされます。これらの取り組みにより、VQAシステムへのVLMのデプロイの信頼性を高めることを目指している。

関連論文リスト

MUPA: Towards Multi-Path Agentic Reasoning for Grounded Video Question Answering [64.46361702927457]
Grounded Video Question Answering (Grounded VideoQA) では、テキストによる回答と明確な視覚的証拠の整合が必要である。本研究では,ビデオグラウンド,質問応答,回答反射,集約を統一するMulti-Path AgenticアプローチであるMUPAを提案する。
論文参考訳（メタデータ） (2025-06-22T15:39:02Z)
ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation [49.1574468325115]
本研究は、ゼロショットビデオ質問応答(VideoQA)のためのLCMブラインドエージェントを提案する。 Chain-of-Thoughtフレームワークと、YOLO-Worldと組み合わせて、オブジェクトのトラッキングとアライメントを強化する。このアプローチは、NExT-QA、iVQA、ActivityNet-QAベンチマークのパフォーマンスを向上した、ビデオQAおよびビデオ理解における新しい最先端技術を確立する。
論文参考訳（メタデータ） (2025-05-21T18:32:43Z)
Large Language Models are Temporal and Causal Reasoners for Video Question Answering [16.722148605611146]
大規模言語モデル(LLM)は、幅広い自然言語理解および生成タスクにおいて顕著なパフォーマンスを示している。本稿では、新しいフレームワークFlipped-VQAを提案し、$langle$V, Q, A$rangle$ tripletのすべての組み合わせを予測することをモデルに推奨する。 Flipped-VQAは言語的ショートカットの活用を促進させるだけでなく、言語バイアスを緩和する。
論文参考訳（メタデータ） (2023-10-24T11:44:39Z)
Locate before Answering: Answer Guided Question Localization for Video Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-05T08:19:16Z)
Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。 Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-06T04:37:52Z)
Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。 A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文参考訳（メタデータ） (2022-03-26T13:03:42Z)
Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文参考訳（メタデータ） (2022-03-02T16:34:09Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)
End-to-End Video Question-Answer Generation with Generator-Pretester Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文参考訳（メタデータ） (2021-01-05T10:46:06Z)
Self-supervised pre-training and contrastive representation learning for multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文参考訳（メタデータ） (2020-09-17T03:37:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。