Fugu-MT 論文翻訳(概要): AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

論文の概要: AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

arxiv url: http://arxiv.org/abs/2505.24863v1
Date: Fri, 30 May 2025 17:58:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:53.122268
Title: AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
Title（参考訳）: AlphaOne: テスト時にゆっくりと、速く考えるモデルを推論する
Authors: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang,
Abstract要約: 最初、$alpha$1が$alpha$ momentを導入し、これは、ユニバーサルパラメータ$alpha$でスケールされた思考フェーズを表す。 alpha$1のモーメントの後、$alpha$1は決定論的に、終端トークンによるゆっくりとした思考を終了させる。このアプローチは、フレキシブルで高密度なスロー・トゥ・ファスト推論変調を可能にすることによって、既存のモノトニックスケーリング手法を統一し、一般化する。
参考スコア（独自算出の注目度）: 52.56648646336559
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents AlphaOne ($\alpha$1), a universal framework for modulating reasoning progress in large reasoning models (LRMs) at test time. $\alpha$1 first introduces $\alpha$ moment, which represents the scaled thinking phase with a universal parameter $\alpha$. Within this scaled pre-$\alpha$ moment phase, it dynamically schedules slow thinking transitions by modeling the insertion of reasoning transition tokens as a Bernoulli stochastic process. After the $\alpha$ moment, $\alpha$1 deterministically terminates slow thinking with the end-of-thinking token, thereby fostering fast reasoning and efficient answer generation. This approach unifies and generalizes existing monotonic scaling methods by enabling flexible and dense slow-to-fast reasoning modulation. Extensive empirical studies on various challenging benchmarks across mathematical, coding, and scientific domains demonstrate $\alpha$1's superior reasoning capability and efficiency. Project page: https://alphaone-project.github.io/
Abstract（参考訳）: 本稿では,大推理モデル(LRM)における推論の進行を制御するための普遍的なフレームワークであるAlphaOne(\alpha$1)について述べる。 $\alpha$1 はまず $\alpha$ moment を導入し、これはユニバーサルパラメータ $\alpha$ でスケールした思考フェーズを表す。このスケールされた$$\alpha$モーメントフェーズでは、推論遷移トークンの挿入をベルヌーイ確率過程としてモデル化することにより、スローシンキング遷移を動的にスケジュールする。 $\alpha$1のモーメントの後、$\alpha$1は決定論的に終末トークンによる遅い思考を終了させ、高速な推論と効率的な回答生成を促進する。このアプローチは、フレキシブルで高密度なスロー・トゥ・ファスト推論変調を可能にすることによって、既存のモノトニックスケーリング手法を統一し、一般化する。数学、コーディング、科学領域にわたる様々な挑戦的なベンチマークに関する広範な実証研究は、$\alpha$1の優れた推論能力と効率を実証している。プロジェクトページ:https://alphaone-project.github.io/

関連論文リスト

Scaling Speculative Decoding with Lookahead Reasoning [11.349400331288257]
トークンレベルの投機的復号法(SD)は有効だが、その利点は秘められている。並列性の第2段層を利用したLookahead Reasoningを開発した。 Lookahead Reasoningは、回答の品質を維持しながら、SDの1.4倍から2.1倍のスピードアップを改善する。
論文参考訳（メタデータ） (2025-06-24T17:48:10Z)
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
Z1: Efficient Test-time Scaling with Code [26.374317704720234]
大規模言語モデル(LLM)は、テスト時間コンピューティングのスケーリングを通じて、複雑な問題解決を実現することができる。本稿では,LLMをコード関連推論軌道上で学習する効率的なテスト時間スケーリング手法を提案する。オーバヘッドを過度に考慮する新しいシフトドシンキングウィンドウを提案する。
論文参考訳（メタデータ） (2025-04-01T14:01:50Z)
An Empirical Study of $μ$P Learning Rate Transfer [0.0]
実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
論文参考訳（メタデータ） (2024-04-08T17:59:44Z)
SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文参考訳（メタデータ） (2023-10-23T17:47:34Z)
Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう? 私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文参考訳（メタデータ） (2023-10-03T17:32:41Z)
Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文参考訳（メタデータ） (2021-01-28T13:35:37Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)
A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-21T19:19:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。