論文の概要: GeoFaith: A Spatio-Temporal Dual View of Faithful Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2605.26893v1
- Date: Tue, 26 May 2026 11:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.986791
- Title: GeoFaith: A Spatio-Temporal Dual View of Faithful Chain-of-Thought
- Title(参考訳): GeoFaith:Fhithful Chain-of-Thoughtの時空間的デュアルビュー
- Authors: Weijiang Lv, Wentong Zhao, Jiayu Wang, Yuhao Wu, Jiaheng Wei, Xiaobo Xia,
- Abstract要約: 本稿では、潜在幾何学的構造とエントロピー力学を利用して、忠実な推論を診断・実施する枠組みを提案する。
我々は標準ベンチマークでGPT-5より優れた8B忠実度検出器を訓練し、忠実度対応強化学習フレームワークを設計する。
実験により,提案手法は忠実度検出と下流推論の両方において優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 29.080093263909347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning has advanced large language models (LLMs), but outcome-based supervision leads to pervasive post-hoc rationalization, producing plausible yet unfaithful reasoning chains. Most prior faithfulness assessment methods are either unscalable, expensive, or unreliable. We propose GeoFaith, a spatio-temporal framework that leverages latent geometric structure and entropy dynamics to diagnose and enforce faithful reasoning. We develop a scalable bootstrapping pipeline expanding step-level annotations from 1k to 20k samples across four domains, train an 8B faithfulness detector outperforming GPT-5 on standard benchmarks, and design a faithfulness-aware reinforcement learning framework jointly optimizing outcome correctness, process faithfulness, and trajectory consistency. Experiments show the proposed method achieves superior performance on both faithfulness detection and downstream reasoning, producing shorter, more interpretable chains without sacrificing accuracy. Our code will be made available publicly.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、先進的な大規模言語モデル(LLM)を持つが、結果に基づく監視は、ポストホックな合理化につながる。
ほとんどの先行した忠実度評価手法は、計算不能、高価、信頼できないのいずれかである。
そこで我々はGeoFaithを提案する。これは、潜時幾何学構造とエントロピー力学を利用して、忠実な推論を診断し強制する時空間フレームワークである。
我々は,4つのドメインにまたがるステップレベルのアノテーションを1kから20kまで拡張するスケーラブルなブートストラップパイプラインを開発し,標準ベンチマークでGPT-5より優れた8B忠実度検出器を訓練し,結果の正しさ,プロセス忠実度,軌道整合性を共同で最適化する忠実度対応強化学習フレームワークを設計する。
実験により,提案手法は忠実度検出と下流推論の両方において優れた性能を示し,精度を犠牲にすることなく,より短く解釈可能な鎖を生成する。
私たちのコードは公開されます。
関連論文リスト
- Inference Time Optimization with Confidence Dynamics [12.846537754659954]
正しい回答の痕跡は時間とともに信頼性の向上を示す傾向を示し、誤った回答の痕跡は推論が進むにつれて弱まるか、信頼が低下することを示している。
本稿では,信頼度動的利得(CDG)に基づく投票法を提案する。
論文 参考訳(メタデータ) (2026-05-24T20:04:19Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - FRIT: Using Causal Importance to Improve Chain-of-Thought Faithfulness [7.721663297811698]
CoT(Chain-of- Thought)推論は,複雑なタスクにおける大規模言語モデルのパフォーマンス向上のための強力なツールとして登場した。
最近の研究は、推論ステップが最終回答に因果的に影響を与えず、不安定で信頼できないアウトプットを生み出していることを示している。
本稿では、因果一貫性のある推論を生成するためにモデルをトレーニングするスケーラブルなアライメント手法であるFhithful Reasoning via Intervention Training (FRIT)を紹介する。
論文 参考訳(メタデータ) (2025-09-10T07:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。