論文の概要: EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation
- arxiv url: http://arxiv.org/abs/2601.03769v1
- Date: Wed, 07 Jan 2026 10:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.46467
- Title: EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation
- Title(参考訳): EntroCoT:Adaptive Entropy-Guided SegmentationによるChain-of-Thoughtの強化
- Authors: Zihang Li, Yuhang Wang, Yikun Zong, Wenhan Yu, Xiaokun Yuan, Runhan Jiang, Zirui Liu, Tong Yang, Arthur Jiang,
- Abstract要約: CoT(Chain-of-Thought)の促進により、大規模言語モデルの数学的推論能力が大幅に向上した。
既存の微調整データセットは、しばしば"答えは正しいが間違った理由"プローブに悩まされる。
本稿では,高品質なCoT監視トレースを自動的に識別し,精錬するための統合フレームワークであるEntroCoTを提案する。
- 参考スコア(独自算出の注目度): 18.606842425858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has significantly enhanced the mathematical reasoning capabilities of Large Language Models. We find existing fine-tuning datasets frequently suffer from the "answer right but reasoning wrong" probelm, where correct final answers are derived from hallucinated, redundant, or logically invalid intermediate steps. This paper proposes EntroCoT, a unified framework for automatically identifying and refining low-quality CoT supervision traces. EntroCoT first proposes an entropy-based mechanism to segment the reasoning trace into multiple steps at uncertain junctures, and then introduces a Monte Carlo rollout-based mechanism to evaluate the marginal contribution of each step. By accurately filtering deceptive reasoning samples, EntroCoT constructs a high-quality dataset where every intermediate step in each reasoning trace facilitates the final answer. Extensive experiments on mathematical benchmarks demonstrate that fine-tuning on the subset constructed by EntroCoT consistently outperforms the baseslines of full-dataset supervision.
- Abstract(参考訳): CoT(Chain-of-Thought)の促進により、大規模言語モデルの数学的推論能力が大幅に向上した。
既存の微調整データセットは、正解が幻覚的、冗長的、論理的に無効な中間段階から導かれるような「答えは正しいが誤った」プローブによってしばしば悩まされる。
本稿では,高品質なCoT監視トレースを自動的に識別し,精錬するための統合フレームワークであるEntroCoTを提案する。
EntroCoTはまず、推論トレースを不確実な点において複数のステップに分割するエントロピーに基づくメカニズムを提案し、次に各ステップの限界寄与を評価するためのモンテカルロロールアウトに基づくメカニズムを導入している。
偽りの推論サンプルを正確にフィルタリングすることで、EntroCoTは、各推論トレースの中間ステップが最終回答を促進する高品質なデータセットを構築する。
数学ベンチマークに関する大規模な実験は、EntroCoTによって構築されたサブセットの微調整が、フルデータセットの監視のベースラインを一貫して上回ることを示した。
関連論文リスト
- DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs [27.185334200898623]
CoT推論(Chain-of-Thought)は、大規模言語モデルにおける多段階の数学的問題解決を改善する。
拡散型CoTフレームワークであるDiffCoTを提案する。
論文 参考訳(メタデータ) (2026-01-07T03:58:42Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with
Large Language Models [68.05046964022844]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)のプロンプトを活用することで、顕著な推論機能を明らかにしている。
本稿では,入力質問の種類が不明な混合タスクシナリオにおいて,一般化可能なCoTプロンプト機構であるGeM-CoTを提案する。
この技術設計により、GeM-CoTは10の公開推論タスクと23のBBHタスクにおいて優れた一般化能力と優れたパフォーマンスを同時に享受する。
論文 参考訳(メタデータ) (2023-10-10T15:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。