論文の概要: LogicGaze: Benchmarking Causal Consistency in Visual Narratives via Counterfactual Verification
- arxiv url: http://arxiv.org/abs/2602.00292v1
- Date: Fri, 30 Jan 2026 20:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.099763
- Title: LogicGaze: Benchmarking Causal Consistency in Visual Narratives via Counterfactual Verification
- Title(参考訳): LogicGaze: 事実検証によるビジュアルナラティブにおける因果一貫性のベンチマーク
- Authors: Rory Driscoll, Alexandros Christoforos, Chadbourne Davis,
- Abstract要約: LogicGazeは視覚入力に対して逐次因果連鎖を検証できるかどうかを精査するために設計された新しいベンチマークフレームワークである。
我々の三部評価プロトコルは、Qwen2.5-VL-72Bのような最先端のVLMの重大な脆弱性を明らかにする。
LogicGazeは堅牢で信頼性の高いマルチモーダル推論を提唱しており、すべてのリソースは匿名リポジトリで公開されている。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While sequential reasoning enhances the capability of Vision-Language Models (VLMs) to execute complex multimodal tasks, their reliability in grounding these reasoning chains within actual visual evidence remains insufficiently explored. We introduce LogicGaze, a novel benchmark framework designed to rigorously interrogate whether VLMs can validate sequential causal chains against visual inputs, specifically targeting the pervasive issue of hallucination. Curated from 40,000 video segments from ShareGPT4Video and a subset of Flickr30k imagery, LogicGaze integrates causal sequences with visually contradictory yet linguistically plausible perturbations, compelling models to verify the authenticity of each reasoning step. Our tripartite evaluation protocol - Causal Validation, Grounded Narrative Synthesis, and Perturbation Rejection - exposes significant vulnerabilities in state-of-the-art VLMs such as Qwen2.5-VL-72B. LogicGaze advocates for robust, trustworthy multimodal reasoning, with all resources publicly available in an anonymized repository.
- Abstract(参考訳): 逐次推論は、複雑なマルチモーダルタスクを実行するためのビジョン・ランゲージ・モデル(VLM)の能力を高めるが、それらの信頼性は、実際の視覚的証拠の中でこれらの推論連鎖を基礎づけることにおいて不十分である。
本稿では,VLMが視覚入力に対して逐次因果連鎖を検証できるかどうかを精査する新しいベンチマークフレームワークであるLogicGazeを紹介する。
ShareGPT4Videoの4万のビデオセグメントとFlickr30k画像のサブセットから算出されたLogicGazeは、因果配列を視覚的に矛盾するが言語的にももっともらしい摂動と統合し、各推論ステップの真正性を検証する魅力的なモデルを提供する。
我々の三部評価プロトコルは、Qwen2.5-VL-72Bのような最先端のVLMの重大な脆弱性を明らかにする。
LogicGazeは堅牢で信頼性の高いマルチモーダル推論を提唱しており、すべてのリソースは匿名リポジトリで公開されている。
関連論文リスト
- VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - More Than the Final Answer: Improving Visual Extraction and Logical Consistency in Vision-Language Models [74.10138874771852]
RLVR上で視覚知覚とテキスト推論を別々に改善する分離されたフレームワークであるPeRL-VL(Perception and Reasoning Learning for Vision-Language Models)を提案する。
知覚のために、PeRL-VLはVLMに基づく説明報酬を導入し、モデルの自己生成した画像記述を忠実さと満足度で評価する。
推論のために、PeRL-VLは論理に富んだチェーン・オブ・シントデータに関するテキストのみの推論SFTステージを追加し、コヒーレンスと論理的一貫性を視覚と独立に強化する。
論文 参考訳(メタデータ) (2025-12-13T23:06:18Z) - CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution [20.823419395675412]
CrossCheck-Benchは、マルチモーダル入力における矛盾検出を評価するための診断ベンチマークである。
タスクが知覚的マッチングから論理的矛盾検出に移行するにつれて、13の最先端の視覚言語モデルを評価し、一貫した性能低下を観察する。
論文 参考訳(メタデータ) (2025-11-19T12:17:15Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding [1.6257248483123767]
textbfCoRGI(textbfChain textbffof textbfReasoning with textbfGrounded textbfInsights)は、チェーンオブ思考出力のポストホック検証により、推論信頼性を高めるフレームワークである。
論文 参考訳(メタデータ) (2025-08-01T07:17:12Z) - ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs [54.154593699263074]
ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
論文 参考訳(メタデータ) (2025-06-18T07:44:09Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。