論文の概要: Best-of-$\infty$ -- Asymptotic Performance of Test-Time Compute
- arxiv url: http://arxiv.org/abs/2509.21091v1
- Date: Thu, 25 Sep 2025 12:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.906052
- Title: Best-of-$\infty$ -- Asymptotic Performance of Test-Time Compute
- Title(参考訳): Best-of-$\infty$ -- テスト時間計算の漸近性能
- Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada,
- Abstract要約: 我々は,大言語モデル (LLMs) において,多数決に基づく最安の$N$について検討する。
回答合意に基づいてN$を選択する適応生成方式を提案する。
フレームワークを複数のLLMの重み付けアンサンブルに拡張し、そのような混合物が個々のモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 10.167365483866663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study best-of-$N$ for large language models (LLMs) where the selection is based on majority voting. In particular, we analyze the limit $N \to \infty$, which we denote as Best-of-$\infty$. While this approach achieves impressive performance in the limit, it requires an infinite test-time budget. To address this, we propose an adaptive generation scheme that selects $N$ based on answer agreement, thereby efficiently allocating inference-time computation. Beyond adaptivity, we extend the framework to weighted ensembles of multiple LLMs, showing that such mixtures can outperform any individual model. The optimal ensemble weighting is formulated and efficiently computed as a mixed-integer linear program. Extensive experiments demonstrate the effectiveness of our approach.
- Abstract(参考訳): 我々は,大言語モデル (LLMs) において,多数決に基づく最安の$N$について検討する。
特に、この極限を$N \to \infty$と解析し、Best-of-\infty$と表現する。
このアプローチは限界において印象的なパフォーマンスを達成するが、テストタイムの予算は無限に必要である。
そこで本研究では,回答合意に基づいて$N$を選択し,推論時間計算を効率的に割り当てる適応生成方式を提案する。
適応性以外にも、フレームワークを複数のLLMの重み付けアンサンブルに拡張し、そのような混合が個々のモデルより優れていることを示す。
最適アンサンブル重み付けは、混合整数線形プログラムとして定式化され、効率的に計算される。
大規模な実験は、我々のアプローチの有効性を実証する。
関連論文リスト
- Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - AMPO: Active Multi-Preference Optimization for Self-play Preference Selection [16.230186347702737]
マルチパラメータ最適化は、有用な応答と望ましくない応答の集合全体を対比することにより、ペアの好みを超えた言語モデルアライメントを強化する。
そこで本稿では,オンライン・プライス・ジェネレーション,マルチ・コントラスト・グループ・コントラスト・ロス,アクティブ・サブセット選択を組み合わせた新しいアプローチである,$textitActive Multi-Preference Optimization$ (AMPO)を提案する。
AMPO は Llama 8B と Mistral Mist 7B を使って $textitAlpacaEval$ で最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-25T15:29:51Z) - Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto optimal Thompson sampling [0.0]
多目的最適化を解くためのサンプル効率のアプローチは、プロセス・オラクル・サロゲート(GP)とMOBOOTS$である。
我々はトンプソンサンプリング(TS)に基づくアプローチ(qtextttPOTS$)を提案する。
$qtextttPOTS$は、GP後部の安価な多目的最適化を進化的アプローチで解決する。
論文 参考訳(メタデータ) (2023-10-24T12:35:15Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。