論文の概要: DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2601.03559v1
- Date: Wed, 07 Jan 2026 03:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.187223
- Title: DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
- Title(参考訳): DiffCoT: LLMにおける拡散型鎖切断
- Authors: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma,
- Abstract要約: CoT推論(Chain-of-Thought)は、大規模言語モデルにおける多段階の数学的問題解決を改善する。
拡散型CoTフレームワークであるDiffCoTを提案する。
- 参考スコア(独自算出の注目度): 27.185334200898623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、大規模言語モデルにおける多段階の数学的問題の解法を改善するが、初期ミスは自己回帰デコーディングによって不可逆的に伝播するため、露出バイアスやエラーの蓄積に弱いままである。
本研究では,CoT推論を反復的認知過程として再構成する拡散型CoTフレームワークであるDiffCoTを提案する。
DiffCoTは、スライディングウィンドウ機構を通じて、推論ステップレベルでの拡散原理を統合し、トークンレベルの自己回帰を保ちながら、中間ステップの生成と再帰の統一を可能にする。
さらに、因果一貫性を維持するために、推論チェーンの時間構造を尊重する因果拡散ノイズスケジュールを導入する。
様々なモデルバックボーンにまたがる3つのマルチステップのCoT推論ベンチマークに関する大規模な実験により、DiffCoTは既存のCoT選好最適化手法を一貫して上回り、CoT推論における堅牢性とエラー訂正能力が改善された。
関連論文リスト
- EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation [18.606842425858]
CoT(Chain-of-Thought)の促進により、大規模言語モデルの数学的推論能力が大幅に向上した。
既存の微調整データセットは、しばしば"答えは正しいが間違った理由"プローブに悩まされる。
本稿では,高品質なCoT監視トレースを自動的に識別し,精錬するための統合フレームワークであるEntroCoTを提案する。
論文 参考訳(メタデータ) (2026-01-07T10:02:27Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - DAPS++: Rethinking Diffusion Inverse Problems with Decoupled Posterior Annealing [5.215481191227242]
textbfDAPS++を導入することで,数値安定性を維持しつつ,推論をより直接的にガイドすることができる。
textbfDAPS++は、様々な画像復元タスク間で高い計算効率と堅牢な再構成性能を実現する。
論文 参考訳(メタデータ) (2025-11-21T08:28:36Z) - Think Consistently, Reason Efficiently: Energy-Based Calibration for Implicit Chain-of-Thought [33.267497114389734]
大規模言語モデル(LLM)は、emphChain-of-Thought(CoT)のプロンプトを通じて、強力な推論能力を示している。
CoT法は離散トークンレベルの推論プロセスに依存しており、誤りの伝播が難しく、語彙によって制限される。
EBM-CoT(Energy-based Chain-of-Thought)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T14:10:58Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。