論文の概要: ABoN: Adaptive Best-of-N Alignment
- arxiv url: http://arxiv.org/abs/2505.12050v1
- Date: Sat, 17 May 2025 15:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.00977
- Title: ABoN: Adaptive Best-of-N Alignment
- Title(参考訳): ABoN: 適応的ベストオブNアライメント
- Authors: Vinod Raman, Hilal Asi, Satyen Kale,
- Abstract要約: Inference-time計算をより効率的に割り当てるBest-of-Nアライメントのためのプロンプト適応戦略を提案する。
我々の手法はシンプルで実用的で、どのLM/RM組み合わせとも互換性がある。
- 参考スコア(独自算出の注目度): 19.22348775001393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in test-time alignment methods, such as Best-of-N sampling, offer a simple and effective way to steer language models (LMs) toward preferred behaviors using reward models (RM). However, these approaches can be computationally expensive, especially when applied uniformly across prompts without accounting for differences in alignment difficulty. In this work, we propose a prompt-adaptive strategy for Best-of-N alignment that allocates inference-time compute more efficiently. Motivated by latency concerns, we develop a two-stage algorithm: an initial exploratory phase estimates the reward distribution for each prompt using a small exploration budget, and a second stage adaptively allocates the remaining budget using these estimates. Our method is simple, practical, and compatible with any LM/RM combination. Empirical results on the AlpacaEval dataset for 12 LM/RM pairs and 50 different batches of prompts show that our adaptive strategy consistently outperforms the uniform allocation with the same inference budget. Moreover, our experiments show that our adaptive strategy remains competitive against uniform allocations with 20% larger inference budgets and even improves in performance as the batch size grows.
- Abstract(参考訳): 近年のBest-of-Nサンプリングのようなテスト時間アライメント手法の進歩は、報酬モデル(RM)を用いて言語モデル(LM)を望ましい行動へと導くためのシンプルで効果的な方法を提供している。
しかし、これらの手法は、特にアライメントの困難さの違いを考慮せずにプロンプト全体にわたって一様に適用する場合、計算コストがかかる可能性がある。
本研究では、より効率的に推論時間計算を割り当てるBest-of-Nアライメントのためのプロンプト適応戦略を提案する。
遅延を考慮した2段階のアルゴリズムを開発し,各プロンプトの報酬分布を小さな調査予算を用いて推定し,残りの予算をこれらの推定値を用いて適応的に割り当てる。
我々の手法はシンプルで実用的で、どのLM/RM組み合わせとも互換性がある。
12のLM/RMペアと50の異なるプロンプトに対するAlpacaEvalデータセットの実証結果は、我々の適応戦略が同一の推論予算で一様アロケーションを一貫して上回っていることを示している。
さらに,我々の適応戦略は,20%大きな推論予算を持つ均一なアロケーションに対して競争力を維持し,バッチサイズが大きくなるにつれて性能も向上することを示した。
関連論文リスト
- PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Sequential Stochastic Combinatorial Optimization Using Hierarchal Reinforcement Learning [5.57541853212632]
本稿では,上位層への適応的な予算配分と下位層へのノード選択を同時に決定する2層オプションベースフレームワークを提案する。
実験の結果,WS-option は従来の方法と比較して,有効性と一般化性が著しく向上していることがわかった。
論文 参考訳(メタデータ) (2025-02-08T12:00:30Z) - The Differences Between Direct Alignment Algorithms are a Blur [3.0059120458540383]
直接アライメントアルゴリズム(DAA)は、強化学習(RL)と報酬モデリング(RM)を置き換えることで言語モデルのアライメントを簡素化する
DAAは、ランキングの損失(ペアワイズ対ポイントワイズ)、それらの損失に使用される報酬(例えば、ポリシーと参照ポリシーの確率比、オッズ比)、または監督された微調整フェーズが必要かどうか(2段階対1段階)によって分類することができる。
これらの結果は、アライメントアルゴリズムにおける性能向上の早期主張や全体的な優位性を回避するために、注意深い評価の重要性を強調している。
論文 参考訳(メタデータ) (2025-02-03T10:54:14Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。
現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。
我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。