論文の概要: AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
- arxiv url: http://arxiv.org/abs/2505.24863v1
- Date: Fri, 30 May 2025 17:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.122268
- Title: AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
- Title(参考訳): AlphaOne: テスト時にゆっくりと、速く考えるモデルを推論する
- Authors: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang,
- Abstract要約: 最初、$alpha$1が$alpha$ momentを導入し、これは、ユニバーサルパラメータ$alpha$でスケールされた思考フェーズを表す。
alpha$1のモーメントの後、$alpha$1は決定論的に、終端トークンによるゆっくりとした思考を終了させる。
このアプローチは、フレキシブルで高密度なスロー・トゥ・ファスト推論変調を可能にすることによって、既存のモノトニックスケーリング手法を統一し、一般化する。
- 参考スコア(独自算出の注目度): 52.56648646336559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents AlphaOne ($\alpha$1), a universal framework for modulating reasoning progress in large reasoning models (LRMs) at test time. $\alpha$1 first introduces $\alpha$ moment, which represents the scaled thinking phase with a universal parameter $\alpha$. Within this scaled pre-$\alpha$ moment phase, it dynamically schedules slow thinking transitions by modeling the insertion of reasoning transition tokens as a Bernoulli stochastic process. After the $\alpha$ moment, $\alpha$1 deterministically terminates slow thinking with the end-of-thinking token, thereby fostering fast reasoning and efficient answer generation. This approach unifies and generalizes existing monotonic scaling methods by enabling flexible and dense slow-to-fast reasoning modulation. Extensive empirical studies on various challenging benchmarks across mathematical, coding, and scientific domains demonstrate $\alpha$1's superior reasoning capability and efficiency. Project page: https://alphaone-project.github.io/
- Abstract(参考訳): 本稿では,大推理モデル(LRM)における推論の進行を制御するための普遍的なフレームワークであるAlphaOne(\alpha$1)について述べる。
$\alpha$1 はまず $\alpha$ moment を導入し、これはユニバーサルパラメータ $\alpha$ でスケールした思考フェーズを表す。
このスケールされた$$\alpha$モーメントフェーズでは、推論遷移トークンの挿入をベルヌーイ確率過程としてモデル化することにより、スローシンキング遷移を動的にスケジュールする。
$\alpha$1のモーメントの後、$\alpha$1は決定論的に終末トークンによる遅い思考を終了させ、高速な推論と効率的な回答生成を促進する。
このアプローチは、フレキシブルで高密度なスロー・トゥ・ファスト推論変調を可能にすることによって、既存のモノトニックスケーリング手法を統一し、一般化する。
数学、コーディング、科学領域にわたる様々な挑戦的なベンチマークに関する広範な実証研究は、$\alpha$1の優れた推論能力と効率を実証している。
プロジェクトページ:https://alphaone-project.github.io/
関連論文リスト
- An Empirical Study of $μ$P Learning Rate Transfer [0.0]
実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。
明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
論文 参考訳(メタデータ) (2024-04-08T17:59:44Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。
代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう?
私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文 参考訳(メタデータ) (2023-10-03T17:32:41Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。