Fugu-MT 論文翻訳(概要): Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment

論文の概要: Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment

arxiv url: http://arxiv.org/abs/2404.01054v2
Date: Fri, 5 Apr 2024 02:47:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 11:45:06.614663
Title: Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment
Title（参考訳）: 言語モデルアライメントのためのリワードハックを緩和する正規化ベストオブNサンプリング
Authors: Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe,
Abstract要約: 正規化されたBest-of-N(RBoN)は、応答選択に近接項を組み込むことで報酬ハッキングを軽減することを目的としている。本稿では、AlpacaFarmデータセット上でRBoNの2つの変種を評価し、特にプロキシ報酬モデルが真の目的と相関が低い場合、BoNより優れていることを示す。
参考スコア（独自算出の注目度）: 7.349727826230864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Best-of-N (BoN) sampling with a reward model has been shown to be an effective strategy for aligning Large Language Models (LLMs) to human preferences at the time of decoding. BoN sampling is susceptible to a problem known as reward hacking. Because the reward model is an imperfect proxy for the true objective, over-optimizing its value can compromise its performance on the true objective. A common solution to prevent reward hacking in preference learning techniques is to optimize a reward using proximity regularization (e.g., KL regularization), which ensures that the language model remains close to the reference model. In this research, we propose Regularized Best-of-N (RBoN), a variant of BoN that aims to mitigate reward hacking by incorporating a proximity term in response selection, similar to preference learning techniques. We evaluate two variants of RBoN on the AlpacaFarm dataset and find that they outperform BoN, especially when the proxy reward model has a low correlation with the true objective.
Abstract（参考訳）: 報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。 BoNサンプリングは、報酬ハッキングとして知られる問題の影響を受けやすい。報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。優先学習技術における報酬ハックを防ぐ一般的な解決策は、言語モデルが参照モデルに近く続けることを保証する近接正規化(例えば、KL正規化)を使用して報酬を最適化することである。本研究では,プライオリティ学習手法と同様に,応答選択に近接項を組み込むことで報奨ハッキングを緩和することを目的とした,BoNの変種であるRegularized Best-of-N(RBoN)を提案する。本稿では、AlpacaFarmデータセット上でRBoNの2つの変種を評価し、特にプロキシ報酬モデルが真の目的と相関が低い場合、BoNより優れていることを示す。

関連論文リスト

Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis [23.76662251965668]
Best-of-N$ (BoN) は生成モデルの推論時間アライメントの方法である。我々はSoft Best-of-N(SBoN)と呼ばれるスムーズなバージョンを通してBoNを研究する。理論的および実証的な結果から,SBoNのスムース化は報酬過小評価を緩和することが明らかとなった。
論文参考訳（メタデータ） (2025-07-08T11:59:48Z)
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)
Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文参考訳（メタデータ） (2025-02-18T09:18:02Z)
Preference Optimization via Contrastive Divergence: Your Reward Model is Secretly an NLL Estimator [32.05337749590184]
本稿では,非推奨の完了を効果的にサンプリングするための理論的ガイダンスを提供する新しいPOフレームワークを開発する。次に、サンプリング戦略としてコントラスト分散(CD)を選択し、新しいMC-POアルゴリズムを提案する。 OnMC-POは既存のSOTAベースラインより優れており、OnMC-POはさらなる改善をもたらす。
論文参考訳（メタデータ） (2025-02-06T23:45:08Z)
Robust Bayesian Optimization via Localized Online Conformal Prediction [37.549297668783254]
局所化オンライン共形予測に基づくベイズ最適化(LOCBO)を導入する。 LOCBOは局所オンライン共形予測(CP)によりGPモデルを校正する観測対象関数を保留するLOCBOのイテレートについて理論的性能保証を行う。
論文参考訳（メタデータ） (2024-11-26T12:45:54Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。 OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文参考訳（メタデータ） (2024-10-06T03:49:28Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文参考訳（メタデータ） (2024-07-19T18:38:25Z)
Variational Best-of-N Alignment [58.7977683502207]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文参考訳（メタデータ） (2024-07-08T15:59:44Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文参考訳（メタデータ） (2024-02-05T02:54:50Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
West-of-N: Synthetic Preferences for Self-Improving Reward Models [20.643537269666137]
合成選好データを生成することによって報酬モデルの品質を向上させる新しい手法を提案する。提案手法は,同量の人選好データの追加に匹敵する効果で,報酬モデルの性能向上を図っている。
論文参考訳（メタデータ） (2024-01-22T16:24:43Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。