論文の概要: Generalized Parallel Scaling with Interdependent Generations
- arxiv url: http://arxiv.org/abs/2510.01143v1
- Date: Wed, 01 Oct 2025 17:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.691773
- Title: Generalized Parallel Scaling with Interdependent Generations
- Title(参考訳): 相互依存生成による一般化並列スケーリング
- Authors: Harry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman,
- Abstract要約: 本稿では,相互依存応答を並列に生成するブリッジを提案する。
少数の新しいパラメータしか持たず、ブリッジは強化学習による相対平均精度の向上を図っている。
- 参考スコア(独自算出の注目度): 58.43994876504917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel LLM inference scaling involves sampling a set of $N>1$ responses for a single input prompt. However, these $N$ parallel responses tend to be generated independently from each other, partitioning compute resources and leaving potentially useful information in one generation untapped by others. This is in contrast to response length scaling where past computation is used in all future steps. For higher quality responses and response sets, we propose Bridge to generate interdependent responses in parallel by rethinking batched LLM hidden states as holistic tensors rather than independent slices. With only a small amount (2.8%-5.1%) of new parameters, Bridge improves the relative mean accuracy gains from reinforcement learning with verifiable rewards by up to 50% and boosts consistency of correct responses. Trained once, Bridge scales to any generation width, all with greater performance than independent generations, unlocking a more general mode of parallel scaling that effectively leverages information between sequences, compatible with any post-generation aggregation technique.
- Abstract(参考訳): 並列LLM推論スケーリングでは、単一の入力プロンプトに対して$N>1$レスポンスのセットをサンプリングする。
しかしながら、これらの$N$並列応答は互いに独立して生成され、計算リソースを分割し、潜在的に有用な情報を他の世代から取り除かれた1世代に残す傾向にある。
これは、過去の計算が将来のすべてのステップで使用されるレスポンス長のスケーリングとは対照的である。
高品質な応答と応答セットに対して,バッチ化されたLLM隠蔽状態を独立スライスではなく全体テンソルとして再考することにより,相互依存応答を並列に生成するブリッジを提案する。
新しいパラメータの少ない (2.8%-5.1%) で、ブリッジは強化学習から得られる相対平均精度を最大50%向上させ、正しい応答の整合性を高める。
一度訓練されたブリッジは、任意の世代幅にスケールし、全て独立世代よりもパフォーマンスが高く、任意の世代後の集約技術と互換性のあるシーケンス間の情報を効果的に活用する、より一般的な並列スケーリングのモードをアンロックする。
関連論文リスト
- Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models [85.76129014170778]
推論時間計算は、複数の独立解の中から選択するか、あるいは自己精製を通じて逐次的にスケールすることができる。
進化的手法にインスパイアされたテスト時間スケーリング手法であるRecursive Self-Aggregation (RSA)を提案する。
論文 参考訳(メタデータ) (2025-09-30T17:58:03Z) - Representation Consistency for Accurate and Coherent LLM Answer Aggregation [20.494987341489573]
表現整合性(英: representation consistency, RC)は、大規模言語モデルの複数の候補応答から引き出された回答を集約するテスト時間スケーリング手法である。
RCは、各応答集合における各応答の発生数を考慮することにより、回答集約を強化する。
キャッシュされたアクティベーションと軽量な類似性計算のみを使用し,追加のモデルクエリを必要としない。
論文 参考訳(メタデータ) (2025-06-18T05:07:47Z) - Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。
このような複数のサンプルセットを活用する新しい方法を提案する。
我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文 参考訳(メタデータ) (2025-06-10T17:42:35Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Scalable Exploration via Ensemble++ [26.53967194965416]
ランダムな線形結合を持つ新しい共有要素アンサンブルアーキテクチャを用いたスケーラブルな探索フレームワークを提案する。
線形帯域については、Ensemble++がThompson Samplingに匹敵する後悔を達成していることを示す理論的保証を提供する。
我々は、固定された特徴を学習可能なニューラル表現に置き換えることで、この理論の基礎を非線形報酬に拡張する。
論文 参考訳(メタデータ) (2024-07-18T06:16:09Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。