論文の概要: DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning
- arxiv url: http://arxiv.org/abs/2509.20912v1
- Date: Thu, 25 Sep 2025 08:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.80123
- Title: DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning
- Title(参考訳): DeFacto:エビデンスと忠実な推論を強制するイメージによる対実的思考
- Authors: Tianrun Xu, Haoda Jing, Ye Li, Yuquan Wei, Jun Feng, Guanyu Chen, Haichuan Gao, Tianren Zhang, Feng Chen,
- Abstract要約: DeFactoは、正確な回答と忠実な推論を共同で実施する、反ファクト的推論フレームワークである。
本研究では,疑問関連証拠を自動的に局所化し,肯定的,反実的,ランダムな変種を構成するパイプラインを開発する。
多様なベンチマークの実験では、DeFactoは回答の正確さと忠実性の推論の両方を大幅に改善している。
- 参考スコア(独自算出の注目度): 11.952788515297913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal language models (MLLMs) have achieved remarkable progress in vision-language reasoning, especially with the emergence of "thinking with images," which integrates explicit visual steps into the reasoning process. While this paradigm strengthens image-based reasoning, a significant challenge remains: models may arrive at correct answers by relying on irrelevant or spurious regions, driven by prior knowledge or dataset biases. Even when the answer is correct, flawed reasoning indicates that the model has not truly understood the image, highlighting the critical importance of reasoning fidelity in multimodal tasks. To address this issue, we propose DeFacto, a counterfactual reasoning framework that jointly enforces accurate answering and faithful reasoning. A key component of our approach is the design of three complementary training paradigms: (i) positive, (ii) counterfactual, and (iii) random-masking. To enable these paradigms, we develop a pipeline that automatically localizes question-relevant evidence and constructs positive, counterfactual, and random variants, resulting in a dataset of about 100k images. Building on this framework, we train multimodal language models with GRPO-based reinforcement learning, where we design three complementary rewards to guide the model toward accurate answering and evidence-grounded reasoning. Experiments on diverse benchmarks demonstrate that DeFacto substantially improves both answer accuracy and reasoning faithfulness, establishing a stronger foundation for interpretable multimodal reasoning. The code is available on GitHub and the dataset is released on HuggingFace.
- Abstract(参考訳): 近年のマルチモーダル言語モデル(MLLM)の進歩は視覚言語推論において顕著な進歩を遂げている。
このパラダイムは画像ベースの推論を強化するが、重要な課題は残る: モデルは、事前の知識やデータセットのバイアスによって駆動される、無関係または刺激的な領域に依存することによって、正しい答えに達することができる。
答えが正しいとしても、欠点のある推論は、モデルがイメージを真に理解していないことを示し、マルチモーダルタスクにおける忠実さを推論する重要な重要性を強調している。
この問題に対処するため,我々は,正確な回答と忠実な推論を共同で実施する対実的推論フレームワークであるDeFactoを提案する。
このアプローチの重要なコンポーネントは、3つの補完的なトレーニングパラダイムの設計です。
(i) 肯定的, 肯定的.
(二)偽造、及び
(三)ランダムマスキング。
これらのパラダイムを実現するために,疑問関連証拠を自動的にローカライズし,肯定的,反実的,ランダムな変種を構築するパイプラインを開発し,約100万の画像のデータセットを生成する。
この枠組みに基づいて、GRPOに基づく強化学習を用いてマルチモーダル言語モデルを訓練し、3つの相補的な報酬を設計し、正確な解答とエビデンスに基づく推論に向けてモデルを導出する。
多様なベンチマークの実験により、DeFactoは答えの正確さと忠実性の推論の両方を大幅に改善し、解釈可能なマルチモーダル推論の強力な基盤を確立した。
コードはGitHubで入手でき、データセットはHuggingFaceでリリースされている。
関連論文リスト
- ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards [48.55501117313608]
本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-09-23T13:47:32Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。