Fugu-MT 論文翻訳(概要): Invariant Grounding for Video Question Answering

論文の概要: Invariant Grounding for Video Question Answering

arxiv url: http://arxiv.org/abs/2206.02349v1
Date: Mon, 6 Jun 2022 04:37:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-07 16:15:45.587723
Title: Invariant Grounding for Video Question Answering
Title（参考訳）: ビデオ質問応答のための不変グラウンド
Authors: Yicong Li, Xiang Wang, Junbin Xiao, Wei Ji, Tat-Seng Chua
Abstract要約: Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。 Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 72.87173324555846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Question Answering (VideoQA) is the task of answering questions about a video. At its core is understanding the alignments between visual scenes in video and linguistic semantics in question to yield the answer. In leading VideoQA models, the typical learning objective, empirical risk minimization (ERM), latches on superficial correlations between video-question pairs and answers as the alignments. However, ERM can be problematic, because it tends to over-exploit the spurious correlations between question-irrelevant scenes and answers, instead of inspecting the causal effect of question-critical scenes. As a result, the VideoQA models suffer from unreliable reasoning. In this work, we first take a causal look at VideoQA and argue that invariant grounding is the key to ruling out the spurious correlations. Towards this end, we propose a new learning framework, Invariant Grounding for VideoQA (IGV), to ground the question-critical scene, whose causal relations with answers are invariant across different interventions on the complement. With IGV, the VideoQA models are forced to shield the answering process from the negative influence of spurious correlations, which significantly improves the reasoning ability. Experiments on three benchmark datasets validate the superiority of IGV in terms of accuracy, visual explainability, and generalization ability over the leading baselines.
Abstract（参考訳）: Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。その核心は、ビデオの視覚的なシーンと問題の言語的意味論のアライメントを理解することで、答えを得る。先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエクションペアと回答をアライメントとして表層的相関に頼っている。しかし、ERMは、問題クリティカルなシーンの因果関係を検査する代わりに、質問無関係のシーンと回答の間の急激な相関関係を過度に明らかにする傾向があるため、問題となることがある。その結果、VideoQAモデルは信頼性の低い推論に悩まされる。本稿ではまず,ビデオQAの因果関係を考察し,この相関関係を除外する鍵は不変グラウンド(invariant grounding)である,と論じる。そこで本研究では,ビデオQA(Invariant Grounding for VideoQA, IGV)という新たな学習フレームワークを提案する。 IGVでは、ビデオQAモデルは、応答過程を突発的相関による負の影響から守らざるを得ず、推論能力は著しく向上する。 3つのベンチマークデータセットの実験は、IGVの精度、視覚的説明可能性、および主要なベースラインよりも一般化能力において優位性を検証する。

関連論文リスト

Cross-modal Causal Relation Alignment for Video Question Grounding [44.97933293141372]
ビデオQG(Video question grounding)では、質問に答え、関連するビデオセグメントを同時に推論して回答をサポートする必要がある。既存のビデオQG手法は、通常、急激な相互モーダルな相関に悩まされ、意図された問題と一致した支配的な視覚シーンを特定することに失敗する。本稿では,CRA(Cross-modal Causal Relation Alignment)と呼ばれる新しいビデオQGフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-05T01:36:32Z)
Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文参考訳（メタデータ） (2025-01-15T12:44:52Z)
Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。 NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文参考訳（メタデータ） (2023-09-04T03:06:04Z)
Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文参考訳（メタデータ） (2023-08-18T07:45:10Z)
Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。 NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文参考訳（メタデータ） (2023-05-07T09:05:19Z)
Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering [60.93164850492871]
Causal Video Question Answering (CVidQA)は、関連性や時間的関係だけでなく、ビデオ内の因果関係も問う。本稿では,言語モデルからの因果共通知識を利用してCVidQAに取り組む,CaKE-LM(Causal Knowledge extract from Language Models)を提案する。 CaKE-LMは、NExT-QAおよびCausal-VidQAデータセットにおいて、ゼロショットCVidQAの精度の4%から6%で従来の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-04-07T17:45:49Z)
Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。 EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文参考訳（メタデータ） (2022-07-26T10:01:02Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。