論文の概要: Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning
- arxiv url: http://arxiv.org/abs/2501.05069v1
- Date: Thu, 09 Jan 2025 08:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:26.317395
- Title: Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning
- Title(参考訳): ビデオ・グラウンド・エンタテインメント・ツリー推論によるコモンセンスビデオ質問応答
- Authors: Huabin Liu, Filip Ilievski, Cees G. M. Snoek,
- Abstract要約: そこで本研究では,コモンセンスビデオ質問応答のためのビデオ接地木推論手法を提案する。
提案手法は,VQAタスクをビデオフラグメントに,包括木構築,ビデオ言語による包括検証,ツリー推論,動的木拡張の4ステップで明示的に適用する。
公平な評価を支援するため,VQAベンチマークの回答セットを書き換える大規模モデルに基づくバイアス除去手法を考案した。
- 参考スコア(独自算出の注目度): 43.587027293772245
- License:
- Abstract: This paper proposes the first video-grounded entailment tree reasoning method for commonsense video question answering (VQA). Despite the remarkable progress of large visual-language models (VLMs), there are growing concerns that they learn spurious correlations between videos and likely answers, reinforced by their black-box nature and remaining benchmarking biases. Our method explicitly grounds VQA tasks to video fragments in four steps: entailment tree construction, video-language entailment verification, tree reasoning, and dynamic tree expansion. A vital benefit of the method is its generalizability to current video and image-based VLMs across reasoning types. To support fair evaluation, we devise a de-biasing procedure based on large-language models that rewrites VQA benchmark answer sets to enforce model reasoning. Systematic experiments on existing and de-biased benchmarks highlight the impact of our method components across benchmarks, VLMs, and reasoning types.
- Abstract(参考訳): 本稿では,コモンセンスビデオ質問応答 (VQA) のためのビデオ接地木推論手法を提案する。
大規模な視覚言語モデル(VLM)の顕著な進歩にもかかわらず、ビデオと潜在的回答の間に急激な相関関係が学習され、ブラックボックスの性質とベンチマークバイアスが強化されるのではないかという懸念が高まっている。
提案手法は,VQAタスクをビデオフラグメントに,包括木構築,ビデオ言語による包括検証,ツリー推論,動的木拡張の4ステップで明示的に適用する。
この手法の重要な利点は、推論型を越えた現在のビデオおよび画像ベースのVLMへの一般化性である。
公平な評価を支援するため,VQAベンチマークの回答セットを書き換え,モデル推論を強制する大規模モデルに基づくバイアス除去手法を考案した。
既存および非バイアスのベンチマークに関するシステマティックな実験は、ベンチマーク、VLM、推論タイプにまたがるメソッドコンポーネントの影響を強調します。
関連論文リスト
- ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。
NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T10:35:22Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
ビデオデータの冗長性が高いため、ビデオの長文理解は難しい課題となっている。
我々は,クエリ適応的かつ階層的なビデオ表現を構築する,トレーニングフリーのフレームワークであるVideoTreeを提案する。
実験の結果,本フレームワークは従来の手法と比較して,推論精度と効率性を両立していることがわかった。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - From Representation to Reasoning: Towards both Evidence and Commonsense
Reasoning for Video Question-Answering [23.35795217396228]
本稿では,シーン記述(記述)からエビデンス推論(説明)まで,4種類の質問を含むCausal-VidQAについて述べる。
コモンセンス推論では、質問に答えて適切な理由を与える2段階のソリューションを設定した。
現状の手法は記述に強いが推論には弱い。
論文 参考訳(メタデータ) (2022-05-30T07:26:54Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。