論文の概要: CounterVQA: Evaluating and Improving Counterfactual Reasoning in Vision-Language Models for Video Understanding
- arxiv url: http://arxiv.org/abs/2511.19923v1
- Date: Tue, 25 Nov 2025 04:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.27786
- Title: CounterVQA: Evaluating and Improving Counterfactual Reasoning in Vision-Language Models for Video Understanding
- Title(参考訳): CounterVQA:映像理解のための視覚言語モデルにおける非現実的推論の評価と改善
- Authors: Yuefei Chen, Jiang Liu, Xiaodong Lin, Ruixiang Tang,
- Abstract要約: 視覚言語モデル(VLM)は近年,映像理解の大幅な進歩を見せている。
ビデオベースのベンチマークであるCounterVQAを導入する。
本研究は,言語モーダルから対実的推論能力を蒸留することにより,モデルの視覚的対実的推論能力を高めるポストトレーニング手法CFGPTを開発した。
- 参考スコア(独自算出の注目度): 13.628041236679229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have recently shown significant advancements in video understanding, especially in feature alignment, event reasoning, and instruction-following tasks. However, their capability for counterfactual reasoning, inferring alternative outcomes under hypothetical conditions, remains underexplored. This capability is essential for robust video understanding, as it requires identifying underlying causal structures and reasoning about unobserved possibilities, rather than merely recognizing observed patterns. To systematically evaluate this capability, we introduce CounterVQA, a video-based benchmark featuring three progressive difficulty levels that assess different aspects of counterfactual reasoning. Through comprehensive evaluation of both state-of-the-art open-source and closed-source models, we uncover a substantial performance gap: while these models achieve reasonable accuracy on simple counterfactual questions, performance degrades significantly on complex multi-hop causal chains. To address these limitations, we develop a post-training method, CFGPT, that enhances a model's visual counterfactual reasoning ability by distilling its counterfactual reasoning capability from the language modality, yielding consistent improvements across all CounterVQA difficulty levels. Dataset and code will be further released.
- Abstract(参考訳): 視覚言語モデル(VLM)は近年,映像理解,特に特徴的アライメント,イベント推論,命令追従タスクにおいて,大きな進歩を見せている。
しかし、仮説的条件下での代替的な結果を推測する反実的推論の能力はいまだ未解明のままである。
この能力は、観察されたパターンを単に認識するのではなく、基礎となる因果構造を特定し、観測されていない可能性について推論する必要があるため、堅牢なビデオ理解に不可欠である。
この能力を体系的に評価するために,ビデオベースのベンチマークであるCounterVQAを導入する。
現状のオープンソースモデルとクローズドソースモデルの両方を包括的に評価することで,これらのモデルが単純な反ファクト問題に対して妥当な精度を達成できる一方で,複雑なマルチホップ因果連鎖において性能が著しく低下することを示す。
これらの制約に対処するため, CFGPT という学習後手法を開発し, 言語モダリティから逆ファクト推論能力を抽出することで, モデルの視覚的反ファクト推論能力を向上し, 全ての対価QA難易度を一貫した改善をもたらす。
データセットとコードは、さらにリリースされる。
関連論文リスト
- STaR: Towards Cognitive Table Reasoning via Slow-Thinking Large Language Models [12.745473719032026]
本稿では、認知テーブル推論を実現するための新しいフレームワークSTaR(slow-thinking for table reasoning)を提案する。
STaRはステップバイステップ思考と不確実性認識推論を明示的にモデル化する。
ベンチマーク実験により、STaRは優れた性能を示し、推論安定性が向上した。
論文 参考訳(メタデータ) (2025-11-14T12:34:17Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards [48.55501117313608]
本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-09-23T13:47:32Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation [18.826857684901118]
本稿では2段階からなる因果時間モデリングフレームワークを提案する。
第1段階では、2つの自己超越補助タスクを導入することにより、因果時間モデリング能力を備えたモデルを提供する。
第2段階では、すべての特徴トークンが、ポーズ推定に等しく寄与するわけではないと論じる。
提案手法は3つの大規模ベンチマークデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-01-24T09:45:16Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。