論文の概要: Grounding Multi-Hop Reasoning in Structural Causal Models via Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.01482v1
- Date: Sat, 02 May 2026 15:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.795828
- Title: Grounding Multi-Hop Reasoning in Structural Causal Models via Group Relative Policy Optimization
- Title(参考訳): グループ相対的政策最適化による構造因果モデルにおける接地多重ホップ推論
- Authors: Yunhan Bu, Quan Zhang, Huaping Zhang, Guotong Geng, Chunxiao Gao, Askar Hamdulla, Juan Wang, Qiuchi Li, Baohua Zhang, Shuai Lei, Yunbo Cao, Zhunchen Luo,
- Abstract要約: MHFV(Multi-Hop Fact Verification)は、異なる証拠の複雑な推論を必要とする。
既存の手法は、Chain-of-Thought (CoT)を通じて透明性を向上させる一方で、エビデンスとクレーム間の因果関係の明確なモデリングを欠いている。
本稿では,構造因果モデル(Structure Causal Model, SCM)における推論を基礎として, 検証を建設因果推論プロセスとして扱う新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 29.611976706453362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Hop Fact Verification (MHFV) necessitates complex reasoning across disparate evidence, posing significant challenges for Large Language Models (LLMs) which often suffer from hallucinations and fractured logical chains. Existing methods, while improving transparency via Chain-of-Thought (CoT), lack explicit modeling of the causal dependencies between evidence and claims. In this work, we introduce a novel framework that grounds reasoning in a Structural Causal Model (SCM), treating verification as a constructive causal inference process. We empirically identify an "inverted U-shaped" correlation between reasoning chain length and accuracy, revealing that excessive structural complexity degrades performance. To address this, we propose a Rule-based Reinforcement Learning strategy using Group Relative Policy Optimization (GRPO). This approach dynamically optimizes the trade-off between structural depth and conciseness. Extensive experiments on HoVer and EX-FEVER demonstrate that our SCM-GRPO framework significantly outperforms state-of-the-art baselines, offering a reliable and interpretable solution for complex fact verification.
- Abstract(参考訳): MHFV (Multi-Hop Fact Verification) は、様々な証拠の複雑な推論を必要とし、幻覚や論理的連鎖の破壊に苦しむ大規模言語モデル (LLM) にとって重要な課題となっている。
既存の手法は、Chain-of-Thought (CoT)を通じて透明性を向上させる一方で、エビデンスとクレーム間の因果関係の明確なモデリングを欠いている。
本研究では,構造因果モデル (Structure Causal Model, SCM) における推論を基礎として, 検証を建設因果推論プロセスとして扱う新しい枠組みを提案する。
提案手法は, チェーン長と精度の相関関係を実証的に同定し, 過度な構造的複雑性が性能を低下させることを示した。
そこで我々は,グループ相対政策最適化(GRPO)を用いたルールベースの強化学習戦略を提案する。
このアプローチは、構造深度と簡潔さの間のトレードオフを動的に最適化する。
HoVerとEX-FEVERの大規模な実験により、我々のSCM-GRPOフレームワークは最先端のベースラインを著しく上回り、複雑な事実検証のための信頼性と解釈可能なソリューションを提供することを示した。
関連論文リスト
- Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Structuring Reasoning for Complex Rules Beyond Flat Representations [37.11501169845084]
我々は、専門家による推論プロセスに触発された新しいフレームワークを提案する。
Dynamic Adjudication template(DAT)は、推論メカニズムを3つの方法論的なステージに構成する。
DATは、複雑なルールベースのタスクにおいて、従来のChain-of-Thought(CoT)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-01T04:10:13Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Reasoning Paths as Signals: Augmenting Multi-hop Fact Verification through Structural Reasoning Progression [12.437936654405211]
現実のシナリオにおける事実のクレームの複雑さの増大は、自動化された事実検証システムにとって大きな課題となる。
既存のアプローチは、しばしば、推論経路の進化する構造を捉えるのに失敗する静的または浅いモデルに依存している。
本稿では,エビデンス検索とクレーム検証の段階を通じて,構造化グラフとしての推論経路を明示的にモデル化する構造推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T10:30:36Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。