Fugu-MT 論文翻訳(概要): Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment

論文の概要: Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment

arxiv url: http://arxiv.org/abs/2503.21878v1
Date: Thu, 27 Mar 2025 18:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.43809
Title: Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment
Title（参考訳）: ベスト・オブ・Nはベストか? 推論時間アライメントにおけるカバー、スケーリング、最適性
Authors: Audrey Huang, Adam Block, Qinghua Liu, Nan Jiang, Dylan J. Foster, Akshay Krishnamurthy,
Abstract要約: 推論時間計算は、言語モデルのパフォーマンスをスケーリングするための重要な軸を提供する。我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
参考スコア（独自算出の注目度）: 54.787826863212146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inference-time computation provides an important axis for scaling language model performance, but naively scaling compute through techniques like Best-of-$N$ sampling can cause performance to degrade due to reward hacking. Toward a theoretical understanding of how to best leverage additional computation, we focus on inference-time alignment which we formalize as the problem of improving a pre-trained policy's responses for a prompt of interest, given access to an imperfect reward model. We analyze the performance of inference-time alignment algorithms in terms of (i) response quality, and (ii) compute, and provide new results that highlight the importance of the pre-trained policy's coverage over high-quality responses for performance and compute scaling: 1. We show that Best-of-$N$ alignment with an ideal choice for $N$ can achieve optimal performance under stringent notions of coverage, but provably suffers from reward hacking when $N$ is large, and fails to achieve tight guarantees under more realistic coverage conditions. 2. We introduce $\texttt{InferenceTimePessimism}$, a new algorithm which mitigates reward hacking through deliberate use of inference-time compute, implementing the principle of pessimism in the face of uncertainty via rejection sampling; we prove that its performance is optimal and does not degrade with $N$, meaning it is scaling-monotonic. We complement our theoretical results with an experimental evaluation that demonstrate the benefits of $\texttt{InferenceTimePessimism}$ across a variety of tasks and models.
Abstract（参考訳）: 推論時間計算は、言語モデルのパフォーマンスをスケールするための重要な軸を提供するが、Best-of-N$のサンプリングのようなテクニックによって、計算を過度にスケールすることは、報酬ハックによるパフォーマンスの低下を引き起こす可能性がある。追加計算を最大限に活用する方法の理論的理解に向けて,不完全な報酬モデルへのアクセスを前提として,事前学習された政策の応答を改善する問題として形式化した推論時アライメントに注目した。我々は推論時間アライメントアルゴリズムの性能を解析する。 (i)応答品質、及び 2) 計算, および, 性能および計算スケーリングのための高品質な応答に対する事前訓練済みポリシーのカバレッジの重要性を強調した新たな結果を提供する。 1. 我々は,$N$の理想的な選択とベスト・オブ・N$の整合性は, 厳格なカバレッジ概念の下で最適なパフォーマンスを達成することができるが, より現実的なカバレッジ条件下では, N$が大きければ, 確実に報酬ハックに悩まされ, 厳密な保証が得られないことを示す。 InferenceTimePessimism}$は、推論時間計算の故意使用による報酬ハッキングを軽減し、不確実性に直面したペシミズムの原理を実装した新しいアルゴリズムである。我々は、様々なタスクやモデルに対して$\texttt{InferenceTimePessimism}$の利点を示す実験的な評価で理論結果を補完する。

関連論文リスト

Inference-Time Reward Hacking in Large Language Models [18.461698175682987]
リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。 HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
論文参考訳（メタデータ） (2025-06-24T02:05:25Z)
Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。 SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2025-04-22T21:09:33Z)
Span-Agnostic Optimal Sample Complexity and Oracle Inequalities for Average-Reward RL [6.996002801232415]
生成モデルを用いてマルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを求める際のサンプル複雑性について検討した。我々は,知識を必要とせず,最適なスパンベース複雑性に適合するアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-02-16T19:10:55Z)
e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文参考訳（メタデータ） (2024-06-13T20:12:09Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Minimax Optimal Online Imitation Learning via Replay Estimation [47.83919594113314]
本稿では,この経験的分散を低減するために,リプレイ推定手法を提案する。提案手法では, min(H3/2 / N, H / sqrtN$)$ 依存度を最適に$widetildeO に設定する。
論文参考訳（メタデータ） (2022-05-30T19:29:56Z)
Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文参考訳（メタデータ） (2021-06-02T22:03:36Z)
Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。 MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文参考訳（メタデータ） (2020-10-12T17:41:44Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文参考訳（メタデータ） (2020-02-26T16:19:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。