論文の概要: SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2505.11484v1
- Date: Fri, 16 May 2025 17:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.779542
- Title: SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
- Title(参考訳): SoftCoT++:Soft Chain-of-Thought Reasoningによるテスト時間スケーリング
- Authors: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao,
- Abstract要約: テスト時間スケーリング(TTS)とは、推論中に余分な計算を割り当てることで推論性能を向上させる手法である。
CoconutとSoftCoTの最近の研究は、連続的な潜在空間における思考が推論性能をさらに向上させることを示した。
我々はSoftCoT++を導入して,SoftCoTをTest-Time Scalingパラダイムに拡張し,多様な思考経路の探索を可能にする。
- 参考スコア(独自算出の注目度): 48.28847964704554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Test-Time Scaling (TTS) refers to approaches that improve reasoning performance by allocating extra computation during inference, without altering the model's parameters. While existing TTS methods operate in a discrete token space by generating more intermediate steps, recent studies in Coconut and SoftCoT have demonstrated that thinking in the continuous latent space can further enhance the reasoning performance. Such latent thoughts encode informative thinking without the information loss associated with autoregressive token generation, sparking increased interest in continuous-space reasoning. Unlike discrete decoding, where repeated sampling enables exploring diverse reasoning paths, latent representations in continuous space are fixed for a given input, which limits diverse exploration, as all decoded paths originate from the same latent thought. To overcome this limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling paradigm by enabling diverse exploration of thinking paths. Specifically, we perturb latent thoughts via multiple specialized initial tokens and apply contrastive learning to promote diversity among soft thought representations. Experiments across five reasoning benchmarks and two distinct LLM architectures demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility with conventional scaling techniques such as self-consistency. Source code is available at https://github.com/xuyige/SoftCoT.
- Abstract(参考訳): テスト時間スケーリング(TTS)とは、モデルパラメータを変更することなく、推論中に余分な計算を割り当てることで、推論性能を改善するアプローチを指す。
既存のTS法は、より中間的なステップを生成することによって離散トークン空間で動作するが、Coconut と SoftCoT の最近の研究は、連続的な潜在空間における思考が推論性能をさらに向上させることを示した。
このような潜在思想は、自己回帰的トークン生成に関連する情報損失のない情報的思考を符号化し、連続空間推論への関心を高めた。
反復サンプリングが多様な推論経路の探索を可能にする離散復号法とは異なり、連続空間における潜在表現は与えられた入力に対して固定され、全ての復号化パスは同じ潜在思考に由来するため、多様な探索を制限する。
この制限を克服するため、SoftCoT++を導入し、SoftCoTをTest-Time Scalingパラダイムに拡張し、多様な思考経路の探索を可能にする。
具体的には、複数の特別な初期トークンを通して潜伏した思考を摂動させ、対照的な学習を適用して、ソフトな思考表現の多様性を促進する。
5つの推論ベンチマークと2つの異なるLLMアーキテクチャの実験は、SoftCoT++がSoftCoTを大幅に向上し、自己整合性スケーリングでSoftCoTを上回っていることを示している。
さらに、自己整合性のような従来のスケーリング手法との強い互換性を示す。
ソースコードはhttps://github.com/xuyige/SoftCoT.comで入手できる。
関連論文リスト
- Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。
認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。
SoTは、無視できる精度の影響でトークンを76%削減する。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。