論文の概要: Equivariant and Invariant Grounding for Video Question Answering
- arxiv url: http://arxiv.org/abs/2207.12783v1
- Date: Tue, 26 Jul 2022 10:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:43:59.324164
- Title: Equivariant and Invariant Grounding for Video Question Answering
- Title(参考訳): ビデオ質問応答における同変および不変グラウンド
- Authors: Yicong Li, Xiang Wang, Junbin Xiao, and Tat-Seng Chua
- Abstract要約: ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
- 参考スコア(独自算出の注目度): 68.33688981540998
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Question Answering (VideoQA) is the task of answering the natural
language questions about a video. Producing an answer requires understanding
the interplay across visual scenes in video and linguistic semantics in
question. However, most leading VideoQA models work as black boxes, which make
the visual-linguistic alignment behind the answering process obscure. Such
black-box nature calls for visual explainability that reveals ``What part of
the video should the model look at to answer the question?''. Only a few works
present the visual explanations in a post-hoc fashion, which emulates the
target model's answering process via an additional method. Nonetheless, the
emulation struggles to faithfully exhibit the visual-linguistic alignment
during answering.
Instead of post-hoc explainability, we focus on intrinsic interpretability to
make the answering process transparent. At its core is grounding the
question-critical cues as the causal scene to yield answers, while rolling out
the question-irrelevant information as the environment scene. Taking a causal
look at VideoQA, we devise a self-interpretable framework, Equivariant and
Invariant Grounding for Interpretable VideoQA (EIGV). Specifically, the
equivariant grounding encourages the answering to be sensitive to the semantic
changes in the causal scene and question; in contrast, the invariant grounding
enforces the answering to be insensitive to the changes in the environment
scene. By imposing them on the answering process, EIGV is able to distinguish
the causal scene from the environment information, and explicitly present the
visual-linguistic alignment. Extensive experiments on three benchmark datasets
justify the superiority of EIGV in terms of accuracy and visual
interpretability over the leading baselines.
- Abstract(参考訳): Video Question Answering (ビデオQA)は、ビデオに関する自然言語の質問に答えるタスクである。
答えを生成するには、問題の映像と言語意味論における視覚シーン間の相互作用を理解する必要がある。
しかし、ほとんどの主要なビデオQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
このようなブラックボックス的な性質は、‘ビデオのどの部分が問題に答えるべきか’を示す視覚的な説明性を要求する。
追加の方法でターゲットモデルの応答プロセスをエミュレートする、ポストホックな方法で視覚的な説明を提示する作品はごくわずかである。
それでもエミュレーションは、応答中に視覚言語的アライメントを忠実に示すのに苦労している。
ポストホックな説明可能性の代わりに、私たちは応答プロセスを透明にするために内在的な解釈可能性に焦点を合わせます。
その中核は、質問に無関係な情報を環境シーンとして展開しながら、因果的なシーンとして質問クリティカルな手がかりを根拠にしている。
VideoQAを因果的に見て、自己解釈可能なフレームワークであるEquivariantとInvariant Grounding for Interpretable VideoQA (EIGV)を考案した。
特に、同変基底化は、応答が因果的シーンと質問の意味的変化に敏感であるように促し、それとは対照的に、不変な基底化は、応答を環境的シーンの変化に影響を受けないように強制する。
EIGVは、応答過程にそれらを付与することにより、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
3つのベンチマークデータセットの大規模な実験は、主要なベースラインよりも精度と視覚的解釈可能性の観点から、EIGVの優位性を正当化する。
関連論文リスト
- Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer
Grounding [27.9150632791267]
本稿では,言語応答と視覚的接地機能を備えた新しいエンドツーエンドフレームワークであるDual Visual-Linguistic Interaction (DaVI)を提案する。
1)視覚的特徴が組み込まれた質問を理解し,さらに回答の復号化のための言語指向のエビデンスを生成する視覚的言語的エンコーダ,2)回答グラウンド化のためのエビデンス関連領域に視覚的特徴に焦点を当てた言語的視覚的デコーダである。
論文 参考訳(メタデータ) (2022-06-21T03:15:27Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue [0.0]
現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
我々はUnified Questioner Transformer (UniQer) と呼ばれる新しい問合せアーキテクチャを提案する。
我々は、CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築し、質問者に対して説明的質問を生成する複雑なシーンを合成する。
論文 参考訳(メタデータ) (2021-06-29T16:36:34Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。