論文の概要: Correct Reasoning Paths Visit Shared Decision Pivots
- arxiv url: http://arxiv.org/abs/2509.21549v1
- Date: Thu, 25 Sep 2025 20:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.991951
- Title: Correct Reasoning Paths Visit Shared Decision Pivots
- Title(参考訳): 正しい推論パスが共有決定点を訪問
- Authors: Dongkyu Cho, Amy B. Z. Zhang, Bilel Fehri, Sheng Wang, Rumi Chunara, Rui Song, Hengrui Cai,
- Abstract要約: 我々は,任意の正しい推論経路を訪れる必要があるという,最小限かつ検証可能なチェックポイントの考え方を導入する。
我々は,多様な推論経路を抽出し,意思決定の選択肢を共有する自己学習パイプラインを提案する。
提案手法は, 根拠となる真理推論データや外部メトリクスを使わずに推論を整列する。
- 参考スコア(独自算出の注目度): 11.42890083738685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning exposes the intermediate thinking process of large language models (LLMs), yet verifying those traces at scale remains unsolved. In response, we introduce the idea of decision pivots-minimal, verifiable checkpoints that any correct reasoning path must visit. We hypothesize that correct reasoning, though stylistically diverse, converge on the same pivot set, while incorrect ones violate at least one pivot. Leveraging this property, we propose a self-training pipeline that (i) samples diverse reasoning paths and mines shared decision pivots, (ii) compresses each trace into pivot-focused short-path reasoning using an auxiliary verifier, and (iii) post-trains the model using its self-generated outputs. The proposed method aligns reasoning without ground truth reasoning data or external metrics. Experiments on standard benchmarks such as LogiQA, MedQA, and MATH500 show the effectiveness of our method.
- Abstract(参考訳): CoT推論は、大規模言語モデル(LLM)の中間的思考過程を公開するが、これらのトレースを大規模に検証することは未解決のままである。
対応として,任意の正しい推論経路を訪問しなければならないという,最小限かつ検証可能なチェックポイントの考え方を導入する。
正しい推論はスタイリスティックに多様であるが、同じピボットセットに収束する一方、不正なピボットは少なくとも1つのピボットに違反する、という仮説を立てる。
この特性を活用して、自己学習パイプラインを提案する。
一 多様な推論経路のサンプル及び地雷が決定の要点を共有すること。
(二)補助検証器を用いて各トレースをピボット中心のショートパス推論に圧縮し、
(iii)自己生成出力を使用してモデルを後処理する。
提案手法は, 根拠となる真理推論データや外部メトリクスを使わずに推論を整列する。
LogiQA, MedQA, MATH500などの標準ベンチマーク実験により, 本手法の有効性が示された。
関連論文リスト
- Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens [23.326813303795692]
CoT(Chain-of-Thought)プロンプトにより,様々なタスクにおいてLLM(Large Language Model)のパフォーマンスが向上することが示されている。
しかしながら、いくつかの初期の発見は、CoT推論が見かけよりも表面的であることを示唆している。
論文 参考訳(メタデータ) (2025-08-02T04:37:28Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Quantifying Logical Consistency in Transformers via Query-Key Alignment [20.636818928993684]
本稿では,論理的推論のための新しい軽量評価手法を提案する。
提案手法は,1つのフォワードパスを計算し,慎重に選択されたヘッドから「QKスコア」を抽出することにより,無効な推論から確実に分離した潜在表現を明らかにする。
論文 参考訳(メタデータ) (2025-02-24T10:02:50Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。