論文の概要: Evaluation of Best-of-N Sampling Strategies for Language Model Alignment
- arxiv url: http://arxiv.org/abs/2502.12668v1
- Date: Tue, 18 Feb 2025 09:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:54.560819
- Title: Evaluation of Best-of-N Sampling Strategies for Language Model Alignment
- Title(参考訳): 言語モデルアライメントのためのベスト・オブ・Nサンプリング手法の評価
- Authors: Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe, Mitsuki Sakamoto, Eiji Uchibe,
- Abstract要約: 報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。
従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。
本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
- 参考スコア(独自算出の注目度): 6.4706370001155955
- License:
- Abstract: Best-of-N (BoN) sampling with a reward model has been shown to be an effective strategy for aligning Large Language Models (LLMs) with human preferences at the time of decoding. BoN sampling is susceptible to a problem known as reward hacking. Since the reward model is an imperfect proxy for the true objective, an excessive focus on optimizing its value can lead to a compromise of its performance on the true objective. Previous work proposes Regularized BoN sampling (RBoN), a BoN sampling with regularization to the objective, and shows that it outperforms BoN sampling so that it mitigates reward hacking and empirically (Jinnai et al., 2024). However, Jinnai et al. (2024) introduce RBoN based on a heuristic and they lack the analysis of why such regularization strategy improves the performance of BoN sampling. The aim of this study is to analyze the effect of BoN sampling on regularization strategies. Using the regularization strategies corresponds to robust optimization, which maximizes the worst case over a set of possible perturbations in the proxy reward. Although the theoretical guarantees are not directly applicable to RBoN, RBoN corresponds to a practical implementation. This paper proposes an extension of the RBoN framework, called Stochastic RBoN sampling (SRBoN), which is a theoretically guaranteed approach to worst-case RBoN in proxy reward. We then perform an empirical evaluation using the AlpacaFarm and Anthropic's hh-rlhf datasets to evaluate which factors of the regularization strategies contribute to the improvement of the true proxy reward. In addition, we also propose another simple RBoN method, the Sentence Length Regularized BoN, which has a better performance in the experiment as compared to the previous methods.
- Abstract(参考訳): 報奨モデルを用いたBest-of-N(BoN)サンプリングは,復号時の人間の嗜好と大規模言語モデル(LLM)を整合させる効果的な戦略であることが示されている。
BoNサンプリングは、報酬ハッキングとして知られる問題の影響を受けやすい。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を最適化する過度な焦点が、真の目的に対するパフォーマンスの妥協につながる可能性がある。
従来の研究では,BoNサンプリングを目標に正規化したRBoN(Regularized BoN sample)が提案されており,BoNサンプリングよりも優れており,報酬ハッキングや経験的ハッキングの軽減が図られている(Jinnai et al , 2024)。
しかし、Jinnai et al (2024) はヒューリスティックに基づく RBoN を導入し、なぜそのような正規化戦略がBoNサンプリングの性能を向上させるのか分析を欠いている。
本研究の目的は,BoNサンプリングが正規化戦略に与える影響を分析することである。
正規化戦略の使用はロバストな最適化に対応しており、プロキシ報酬の摂動のセットに対して最悪のケースを最大化する。
理論上の保証はRBoNに直接適用されないが、RBoNは実践的な実装に対応する。
本稿ではRBoNフレームワークの拡張であるStochastic RBoN sample(SRBoN)を提案する。
次に、AlpacaFarmとAnthropicのhh-rlhfデータセットを用いて実験的な評価を行い、正規化戦略のどの要素が真のプロキシ報酬の改善に寄与しているかを評価する。
さらに,提案手法は,従来の手法と比較して実験性能がよい,簡易なRBoN法であるSentence Length Regularized BoNも提案する。
関連論文リスト
- Preference Optimization via Contrastive Divergence: Your Reward Model is Secretly an NLL Estimator [32.05337749590184]
本稿では,非推奨の完了を効果的にサンプリングするための理論的ガイダンスを提供する新しいPOフレームワークを開発する。
次に、サンプリング戦略としてコントラスト分散(CD)を選択し、新しいMC-POアルゴリズムを提案する。
OnMC-POは既存のSOTAベースラインより優れており、OnMC-POはさらなる改善をもたらす。
論文 参考訳(メタデータ) (2025-02-06T23:45:08Z) - Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models [80.65242356955231]
本稿では,推論時戦略の性能を直接最適化する手法により,モデルが微調整される,推論対応のファインチューニングパラダイムを提案する。
筆者らは,BoN内における困難で微分不可能なargmax演算子を克服し,BoN対応微調整のための最初の模倣学習と強化学習(RL)手法を考案した。
提案実験では,BoNを意識した微調整の有効性を,性能向上と推論時間計算の両面で実証した。
論文 参考訳(メタデータ) (2024-12-18T20:43:47Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Variational Best-of-N Alignment [58.7977683502207]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文 参考訳(メタデータ) (2024-07-08T15:59:44Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - Reward Model Ensembles Help Mitigate Overoptimization [7.715463015544845]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
論文 参考訳(メタデータ) (2023-10-04T11:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。