論文の概要: RoBoN: Routed Online Best-of-n for Test-Time Scaling with Multiple LLMs
- arxiv url: http://arxiv.org/abs/2512.05542v1
- Date: Fri, 05 Dec 2025 08:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.974293
- Title: RoBoN: Routed Online Best-of-n for Test-Time Scaling with Multiple LLMs
- Title(参考訳): RoBoN: 複数のLLMを使用したテスト時間スケーリングのためのオンラインBest-of-n
- Authors: Jonathan Geuter, Gregor Kornhardt,
- Abstract要約: Routed Online Best-of-n$は、一般的なシングルモデルBest-of-n$に代わる、シーケンシャルなマルチLLM代替品である。
以上の結果から,モデル間の多様性は,任意の構成モデル単独よりも$n$の最高の性能向上のために,推論時に活用できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Best-of-$n$ is a widely used test-time scaling approach for LLM inference. Yet despite evidence that LLMs exhibit complementary strengths across tasks, traditionally best-of-$n$ relies on a single model to generate responses. We propose RoBoN (Routed Online Best-of-$n$), a sequential multi-LLM alternative to the prevailing single-model best-of-$n$. Given a suite of models $\{m_i\}_{i=1}^M$, RoBoN sequentially routes generations one-by-one across models, based on scores computed using a reward model and an agreement signal on the predicted responses. This online routing requires no additional training, keeps compute parity, and works with any plug-in reward model. Across reasoning benchmarks (MATH500, OlympiadBench, MinervaMath, GSM8K, MMLU), RoBoN consistently outperforms standard best-of-$n$ applied to each individual model for larger $n$, with gains of up to 3.4\% in absolute accuracy, and also improves over a uniform multi-model portfolio baseline. Our results indicate that diversity across models can be exploited at inference to improve best-of-$n$ performance over any constituent model alone, providing a simple, training-free path to test-time scaling with multiple LLMs.
- Abstract(参考訳): Best-of-n$は、LLM推論に広く使われているテスト時間スケーリングのアプローチである。
しかし、LSMがタスク間で相補的な強みを示すという証拠があるにもかかわらず、伝統的に$n$は応答を生成するために単一のモデルに依存している。
一般的なシングルモデルBest-of-n$に代わるシーケンシャルなマルチLLMであるRoBoN(Routed Online Best-of-n$)を提案する。
モデル組が$\{m_i\}_{i=1}^M$と与えられた場合、RoBoNは、予測された応答に対する報酬モデルと合意信号を用いて計算されたスコアに基づいて、連続的にモデルを1対1で生成する。
このオンラインルーティングは、追加のトレーニングを必要とせず、計算パリティを維持し、プラグイン報酬モデルでも動作する。
推論ベンチマーク (MATH500, OlympiadBench, MinervaMath, GSM8K, MMLU) 全体では、RoBoN は各モデルに標準の$n$を常に上回り、絶対精度が 3.4 % まで向上し、統一されたマルチモデルポートフォリオベースラインよりも改善されている。
この結果から,モデル間の多様性は,任意の構成モデルよりも$n$の最高の性能向上に有効であり,複数のLLMを用いてテスト時間スケーリングを行うための,シンプルでトレーニング不要なパスを提供することを示す。
関連論文リスト
- DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing [64.38277118982698]
LLM(Large Language Models)は、人間のような命令追従能力を示す。
本研究では,各命令に対して最高の性能のLCMをルーティングして,全体的な性能を向上させる方法について検討する。
提案手法は,モデル能力表現,ユーザ命令,性能調査プロンプトを用いて,性能評価を行う機能命令を新たに構築する。
論文 参考訳(メタデータ) (2025-02-24T16:10:53Z) - One-shot Active Learning Based on Lewis Weight Sampling for Multiple Deep Models [39.582100727546816]
複数のターゲットモデルに対するアクティブラーニング(AL)は、ラベル付きデータクエリの削減と、複数のモデルを並列に効果的にトレーニングすることを目的としている。
既存のALアルゴリズムは、しばしば計算コストのかかる反復的なモデルトレーニングに依存している。
本稿では,この課題に対処する一発AL手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:48:16Z) - Large Language Model Routing with Benchmark Datasets [40.42044096089315]
通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。
そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。
本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
論文 参考訳(メタデータ) (2023-09-27T17:08:40Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。