論文の概要: Fast Quiet-STaR: Thinking Without Thought Tokens
- arxiv url: http://arxiv.org/abs/2505.17746v1
- Date: Fri, 23 May 2025 11:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.022292
- Title: Fast Quiet-STaR: Thinking Without Thought Tokens
- Title(参考訳): Fast Quiet-STaR: 考えることなく考える
- Authors: Wei Huang, Yizhe Xiong, Xin Ye, Zhijie Deng, Hui Chen, Zijia Lin, Guiguang Ding,
- Abstract要約: Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 32.60022462114766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved impressive performance across a range of natural language processing tasks. However, recent advances demonstrate that further gains particularly in complex reasoning tasks require more than merely scaling up model sizes or training data. One promising direction is to enable models to think during the reasoning process. Recently, Quiet STaR significantly improves reasoning by generating token-level thought traces, but incurs substantial inference overhead. In this work, we propose Fast Quiet STaR, a more efficient reasoning framework that preserves the benefits of token-level reasoning while reducing computational cost. Our method introduces a curriculum learning based training strategy that gradually reduces the number of thought tokens, enabling the model to internalize more abstract and concise reasoning processes. We further extend this approach to the standard Next Token Prediction (NTP) setting through reinforcement learning-based fine-tuning, resulting in Fast Quiet-STaR NTP, which eliminates the need for explicit thought token generation during inference. Experiments on four benchmark datasets with Mistral 7B and Qwen2.5 7B demonstrate that Fast Quiet-STaR consistently outperforms Quiet-STaR in terms of average accuracy under the same inference time budget. Notably, Fast Quiet-STaR NTP achieves an average accuracy improvement of 9\% on Mistral 7B and 5.7\% on Qwen2.5 7B, while maintaining the same inference latency. Our code will be available at https://github.com/huangwei200012/Fast-Quiet-STaR.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで素晴らしいパフォーマンスを実現している。
しかし、最近の進歩は、特に複雑な推論タスクでは、単にモデルのサイズやトレーニングデータのスケールアップ以上のものを必要としていることを示している。
有望な方向性の1つは、推論プロセス中にモデルが考えることを可能にすることである。
近年、Quiet STaRはトークンレベルの思考トレースを生成することによって推論を大幅に改善するが、かなりの推論オーバーヘッドが発生する。
本研究では,より効率的な推論フレームワークであるFast Quiet STaRを提案する。
そこで本手法では, 学習学習に基づく学習戦略を導入し, 思考トークンの数を徐々に減らし, より抽象的で簡潔な推論プロセスの内部化を可能にした。
我々は、このアプローチをさらに強化学習に基づく微調整により、NTP(Next Token Prediction)の標準設定に拡張し、高速クイット-STaR NTPにより、推論中に明示的な思考トークンを生成する必要がなくなる。
Mistral 7B と Qwen2.5 7B による4つのベンチマークデータセットの実験は、Fast Quiet-STaR が同じ推論時間予算の下での平均精度でQuiet-STaR を一貫して上回っていることを示した。
特に、Fast Quiet-STaR NTPは、ミストラール7Bで9\%、Qwen2.57Bで5.7\%の平均精度改善を達成し、同じ推論遅延を維持している。
私たちのコードはhttps://github.com/huangwei200012/Fast-Quiet-STaRで公開されます。
関連論文リスト
- Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Chain of Draft: Thinking Faster by Writing Less [37.492654173517046]
Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。
CoDはタスクを解きながら最小限だが情報的中間推論出力を生成する。
論文 参考訳(メタデータ) (2025-02-25T19:36:06Z) - Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。
モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文 参考訳(メタデータ) (2025-02-11T00:33:31Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales? [19.13886382791074]
本稿では,大規模言語モデル (LLM) における未探索課題について考察する。
雑音有理数の存在下での推論の堅牢性を評価するために,我々はNoRaデータセットを構築した。
ノイズチェーン・オブ・シント(CD-CoT)を用いたコントラッシブデノケーション法を提案する。
論文 参考訳(メタデータ) (2024-10-31T12:07:44Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。