論文の概要: SynAdapt: Learning Adaptive Reasoning in Large Language Models via Synthetic Continuous Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2508.00574v1
- Date: Fri, 01 Aug 2025 12:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.869637
- Title: SynAdapt: Learning Adaptive Reasoning in Large Language Models via Synthetic Continuous Chain-of-Thought
- Title(参考訳): SynAdapt:Synthetic Continuous Chain-of-Thoughtによる大規模言語モデルにおける適応推論の学習
- Authors: Jianwei Wang, Ziming Wu, Fuming Lai, Shaobing Lian, Ziqian Zeng,
- Abstract要約: CoT(Chain-of-Thought)推論は、離散CoTトークン(DCoT)の生成によってかなりの時間コストを発生させる
既存のContinuous CoTメソッドは、間接的な微調整、限定されたアライメント、一貫性のないターゲットによって妨げられます。
我々は、革新的な効率的な推論フレームワークである textitSynAdapt を提案する。
- 参考スコア(独自算出の注目度): 8.287063165175667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Chain-of-Thought (CoT) reasoning improves model performance, it incurs significant time costs due to the generation of discrete CoT tokens (DCoT). Continuous CoT (CCoT) offers a more efficient alternative, but existing CCoT methods are hampered by indirect fine-tuning, limited alignment, or inconsistent targets. To overcome these limitations, we propose \textit{SynAdapt}, an innovative efficient reasoning framework. Specifically, \textit{SynAdapt} generates the synthetic CCoT to serve as a precise and effective alignment target for LLMs. This synthetic CCoT explicitly guides the LLM to learn CCoT and derive accurate answers directly. Furthermore, relying solely on CCoT is insufficient for solving hard questions. To address this, \textit{SynAdapt} integrates a difficulty classifier that leverages both question context and CCoT to identify hard questions. CCoT can effectively help identify hard questions after some brief reasoning. We then adaptively prompt the LLM to re-think these hard questions for improved performance. Extensive experimental results across various benchmarks from different difficulty levels strongly demonstrate the effectiveness of our method, achieving the best accuracy-efficiency trade-off.
- Abstract(参考訳): CoT(Chain-of-Thought)推論はモデル性能を改善するが、離散CoTトークン(DCoT)の生成によってかなりの時間コストが発生する。
Continuous CoT(CCoT)は、より効率的な代替手段を提供するが、既存のCCoTメソッドは、間接的な微調整、限定的なアライメント、一貫性のないターゲットによって妨げられる。
これらの制限を克服するために、革新的な効率的な推論フレームワークである \textit{SynAdapt} を提案する。
具体的には、textit{SynAdapt} は合成 CCoT を生成し、LSM の正確かつ効果的なアライメントターゲットとして機能する。
この合成CCoTは、LCMにCCoTを学習させ、正確な答えを直接導き出すよう明示的に誘導する。
さらに、CCoTのみに依存することは、難しい問題を解くには不十分である。
これを解決するために、 \textit{SynAdapt}は、難しい質問を識別するために、質問コンテキストとCCoTの両方を活用する難易度分類器を統合する。
CCoTは、いくつかの短い推論の後、効果的に難しい質問を特定するのに役立つ。
その後、私たちはLCMに、これらの難しい質問を再考して、パフォーマンスを改善するように促します。
本手法の有効性を強く示し, 高い精度・効率のトレードオフを達成した。
関連論文リスト
- Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文 参考訳(メタデータ) (2025-08-05T11:48:18Z) - ECCoT: A Framework for Enhancing Effective Cognition via Chain of Thought in Large Language Model [1.0760366210656895]
ECCoTは、大規模言語モデルで推論チェーンを評価し、洗練するフレームワークである。
解釈可能性を改善し、バイアスを減らし、LCMベースの意思決定の信頼性を高める。
論文 参考訳(メタデータ) (2025-06-24T13:09:53Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Efficient Long CoT Reasoning in Small Language Models [26.579760423359673]
小さな言語モデル(SLM)を直接トレーニングして、長いチェーン・オブ・シークレット(CoT)推論ステップを創出することは困難である。
提案手法では, 不要なステップを長いCoTで実行し, 有効かつ有用なCoTトレーニングデータをキュレートするために, SLM自体の法則を用いる。
論文 参考訳(メタデータ) (2025-05-24T00:22:52Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。
我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文 参考訳(メタデータ) (2025-03-19T15:40:45Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。