論文の概要: CoT-Valve: Length-Compressible Chain-of-Thought Tuning
- arxiv url: http://arxiv.org/abs/2502.09601v1
- Date: Thu, 13 Feb 2025 18:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:35.39725
- Title: CoT-Valve: Length-Compressible Chain-of-Thought Tuning
- Title(参考訳): CoT-Valve:長さ圧縮性チェイン・オブ・サート・チューニング
- Authors: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang,
- Abstract要約: 我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 50.196317781229496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought significantly enhances a model's reasoning capability, but it also comes with a considerable increase in inference costs due to long chains. With the observation that the reasoning path can be easily compressed under easy tasks but struggle on hard tasks, we explore the feasibility of elastically controlling the length of reasoning paths with only one model, thereby reducing the inference overhead of reasoning models dynamically based on task difficulty. We introduce a new tuning and inference strategy named CoT-Valve, designed to allow models to generate reasoning chains of varying lengths. To achieve this, we propose to identify a direction in the parameter space that, when manipulated, can effectively control the length of generated CoT. Moreover, we show that this property is valuable for compressing the reasoning chain. We construct datasets with chains from long to short for the same questions and explore two enhanced strategies for CoT-Valve: (1) a precise length-compressible CoT tuning method, and (2) a progressive chain length compression approach. Our experiments show that CoT-Valve successfully enables controllability and compressibility of the chain and shows better performance than the prompt-based control. We applied this method to QwQ-32B-Preview, reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with only one additional incorrect answer.
- Abstract(参考訳): Chain-of-Thoughtはモデルの推論能力を大幅に向上させるが、長鎖による推論コストも大幅に向上する。
簡単な作業で容易に推論経路を圧縮できるが、困難な作業に苦しむことから、1つのモデルで推論経路の長さを弾性的に制御し、タスクの難易度に基づいて推論モデルの推論オーバーヘッドを動的に低減できる可能性を検討する。
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
そこで本研究では,生成したCoTの長さを効果的に制御できるパラメータ空間の方向を特定することを提案する。
さらに,この性質は推論連鎖の圧縮に有用であることを示す。
提案手法は,CoT-Valveにおける2つの強化戦略,(1)正確に長さ圧縮可能なCoTチューニング手法,(2)プログレッシブチェーン長圧縮手法である。
実験の結果,CoT-Valveはチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示した。
この手法をQwQ-32B-Previewに適用し、GSM8K上の推論チェーンを741から225トークンに減らし、小さな性能低下(95.07%から94.92%)と6827から4629トークンに減らした。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。
我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。
結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文 参考訳(メタデータ) (2025-07-14T01:14:50Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting [0.0]
Chain-of-Thought(CoT)プロンプトは,大規模言語モデルに“ステップバイステップ”を推奨するテクニックである。
CoTプロンプトの有効性はタスクの種類やモデルによって大きく異なる。
明確な推論能力を持つモデルの場合、CoTのプロンプトは答えの正確性に限界があるだけである。
論文 参考訳(メタデータ) (2025-06-08T13:41:25Z) - Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文 参考訳(メタデータ) (2025-05-26T15:08:51Z) - Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting [28.537281448659634]
本稿では,性能損失を伴わない推論トレースを動的に短縮するDAP法を提案する。
実験では、難解なCoTサンプルの100Kだけを微調整した学生モデルが800KのLong CoTサンプルで蒸留されたモデルより優れている。
また,本手法は,11種類の多種多様なベンチマークにおいて,比較的少ないトークンを用いて,長鎖よりも短い難易度CoTの精度を向上する。
論文 参考訳(メタデータ) (2025-05-26T09:04:44Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach [4.055489363682199]
推論長とモデル性能の関係について,最初の系統的研究を行った。
このトレードオフは、非常に明確な推論チェーンにまたがって持続することを示す。
提案手法は, 理論的な限界から遠く離れていることを示す。
論文 参考訳(メタデータ) (2025-03-03T03:48:20Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - TokenSkip: Controllable Chain-of-Thought Compression in LLMs [11.583847083770031]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明されている。
TokenSkipは、LLMが重要でないトークンを選択的にスキップし、制御可能なCoT圧縮を可能にする、シンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-02-17T17:37:26Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - C3oT: Generating Shorter Chain-of-Thought without Compromising Effectiveness [18.073777359647515]
解答の導出前のChain-of-Thought(CoT)は、大規模言語モデル(LLM)の推論能力を改善することができる。
しかし、生成したCoTの長さは、望ましい最終回答よりもはるかに長いため、さらなる復号コストが生じる。
本稿では、圧縮機がオリジナルの長いCoTを短いCoTに圧縮するCOT圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-16T11:12:45Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。