論文の概要: Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.26626v1
- Date: Tue, 30 Sep 2025 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.242746
- Title: Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models
- Title(参考訳): 帰納的自己集約が大規模言語モデルにおける深い思考を解き放つ
- Authors: Siddarth Venkatraman, Vineet Jain, Sarthak Mittal, Vedant Shah, Johan Obando-Ceron, Yoshua Bengio, Brian R. Bartoldson, Bhavya Kailkhura, Guillaume Lajoie, Glen Berseth, Nikolay Malkin, Moksh Jain,
- Abstract要約: 推論時間計算は、複数の独立解の中から選択するか、あるいは自己精製を通じて逐次的にスケールすることができる。
進化的手法にインスパイアされたテスト時間スケーリング手法であるRecursive Self-Aggregation (RSA)を提案する。
- 参考スコア(独自算出の注目度): 85.76129014170778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling methods improve the capabilities of large language models (LLMs) by increasing the amount of compute used during inference to make a prediction. Inference-time compute can be scaled in parallel by choosing among multiple independent solutions or sequentially through self-refinement. We propose Recursive Self-Aggregation (RSA), a test-time scaling method inspired by evolutionary methods that combines the benefits of both parallel and sequential scaling. Each step of RSA refines a population of candidate reasoning chains through aggregation of subsets to yield a population of improved solutions, which are then used as the candidate pool for the next iteration. RSA exploits the rich information embedded in the reasoning chains -- not just the final answers -- and enables bootstrapping from partially correct intermediate steps within different chains of thought. Empirically, RSA delivers substantial performance gains with increasing compute budgets across diverse tasks, model families and sizes. Notably, RSA enables Qwen3-4B-Instruct-2507 to achieve competitive performance with larger reasoning models, including DeepSeek-R1 and o3-mini (high), while outperforming purely parallel and sequential scaling strategies across AIME-25, HMMT-25, Reasoning Gym, LiveCodeBench-v6, and SuperGPQA. We further demonstrate that training the model to combine solutions via a novel aggregation-aware reinforcement learning approach yields significant performance gains. Code available at https://github.com/HyperPotatoNeo/RSA.
- Abstract(参考訳): テストタイムスケーリング手法は、推論時に使用される計算量を増やして予測を行うことで、大規模言語モデル(LLM)の能力を向上させる。
推論時間計算は、複数の独立解の中から選択するか、あるいは自己精製を通じて逐次的にスケールすることができる。
並列スケーリングとシーケンシャルスケーリングの両方の利点を組み合わせた進化的手法に着想を得たテスト時間スケーリング手法であるRecursive Self-Aggregation (RSA)を提案する。
RSAの各ステップは、サブセットの集合を通じて候補推論鎖の集団を洗練させ、改良された解の集団を生成し、次のイテレーションの候補プールとして使用される。
RSAは、推論チェインに埋め込まれた豊富な情報(最終回答だけでなく)を活用し、異なる思考チェイン内の部分的に正しい中間ステップからのブートストラップを可能にします。
実証的には、RSAは様々なタスク、モデルファミリー、サイズにわたる計算予算を増やすことで、大幅なパフォーマンス向上を実現している。
特に、RSAはQwen3-4B-Instruct-2507で、DeepSeek-R1やo3-mini(ハイ)といった大きな推論モデルと競合する性能を実現し、AIME-25、HMMT-25、Reasoning Gym、LiveCodeBench-v6、SuperGPQAのスケーリング戦略は純粋に並列でシーケンシャルである。
さらに,新たなアグリゲーション対応強化学習手法を用いて,ソリューションを組み合わせるためのモデルのトレーニングを行うことで,大幅な性能向上が期待できることを示す。
コードはhttps://github.com/HyperPotatoNeo/RSA.comで公開されている。
関連論文リスト
- Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning [90.5036809670993]
大規模な言語モデルの推論能力を向上するための重要な戦略として、テスト時間計算のスケーリングが登場した。
次世代予測課題としてのジェネレーティブ・リワード・モデル(GenRM)再フレーム検証の最近の進歩
我々は、さまざまなモデルやデータセットにまたがる最も実用的な推論予算について、GenRMと自己整合性(SC)を評価した。
論文 参考訳(メタデータ) (2025-04-01T17:41:57Z) - Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems [21.01887711305712]
本稿では,言語およびマルチモーダルシステムにおける推論時間をスケールするための補完的なプラグインレシピとして,Recursive Inference Scaling (RINS)を紹介した。
RINS はモバイル LLM の最近の "repeat-all-over" (RAO) 戦略など、他の55種類よりも大幅に優れている。
軽量アダプタでは、RINSは非レグレット戦略を提供するため、RINS対応プレトレーニングにより言語モデリングのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-02-11T12:11:40Z) - Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-11T02:31:11Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。