Fugu-MT 論文翻訳(概要): Active Preference Optimization for Sample Efficient RLHF

論文の概要: Active Preference Optimization for Sample Efficient RLHF

arxiv url: http://arxiv.org/abs/2402.10500v2
Date: Wed, 5 Jun 2024 15:10:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 01:21:50.706214
Title: Active Preference Optimization for Sample Efficient RLHF
Title（参考訳）: サンプル効率の良いRLHFの能動選好最適化
Authors: Nirjhar Das, Souradip Chakraborty, Aldo Pacchiano, Sayak Ray Chowdhury,
Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
参考スコア（独自算出の注目度）: 27.772423917657626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) is pivotal in aligning Large Language Models (LLMs) with human preferences. Although aligned generative models have shown remarkable abilities in various tasks, their reliance on high-quality human preference data creates a costly bottleneck in the practical application of RLHF. One primary reason is that current methods rely on uniformly picking prompt-generation pairs from a dataset of prompt-generations, to collect human feedback, resulting in sub-optimal alignment under a constrained budget, which highlights the criticality of adaptive strategies in efficient alignment. Recent works [Mehta et al., 2023, Muldrew et al., 2024] have tried to address this problem by designing various heuristics based on generation uncertainty. However, either the assumptions in [Mehta et al., 2023] are restrictive, or [Muldrew et al., 2024] do not provide any rigorous theoretical guarantee. To address these, we reformulate RLHF within contextual preference bandit framework, treating prompts as contexts, and develop an active-learning algorithm, $\textit{Active Preference Optimization}$ ($\texttt{APO}$), which enhances model alignment by querying preference data from the most important samples, achieving superior performance for small sample budget. We analyze the theoretical performance guarantees of $\texttt{APO}$ under the BTL preference model showing that the suboptimality gap of the policy learned via $\texttt{APO}$ scales as $O(1/\sqrt{T})$ for a budget of $T$. We also show that collecting preference data by choosing prompts randomly leads to a policy that suffers a constant sub-optimality. We perform detailed experimental evaluations on practical preference datasets to validate $\texttt{APO}$'s efficacy over the existing methods, establishing it as a sample-efficient and practical solution of alignment in a cost-effective and scalable manner.
Abstract（参考訳）: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要である。協調生成モデルは様々なタスクにおいて顕著な能力を示してきたが、高品質な人間の嗜好データへの依存は、RLHFの実践的応用においてコストのかかるボトルネックを生み出している。主な理由の1つは、現在の手法が、人間のフィードバックを集めるために、素早い世代のデータセットから一様に生成するペアを選別することに依存しており、その結果、制約された予算の下で最適以下のアライメントが生まれ、効率の良いアライメントにおける適応戦略の臨界性が強調される。最近の研究(Mehta et al , 2023, Muldrew et al , 2024)は、生成の不確実性に基づく様々なヒューリスティックを設計することによってこの問題に対処しようとしている。しかし、[Mehta et al , 2023] の仮定は制限的であるか、[Muldrew et al , 2024] は厳密な理論的保証を提供していない。これらの問題に対処するために、RLHFを文脈的選好帯域フレームワーク内で再構成し、プロンプトを文脈として扱い、より重要なサンプルから選好データをクエリすることでモデルアライメントを向上させるアクティブラーニングアルゴリズムである$\textit{Active Preference Optimization}$$(\textt{APO}$)を開発する。我々は、BTL選好モデルの下で、$\texttt{APO}$の理論的性能保証を分析し、$\texttt{APO}$の予算に対して$O(1/\sqrt{T})$のスケールで学習したポリシーの最適性の差が$T$であることを示す。また、プロンプトの選択による選好データ収集は、一定の準最適性に苦しむポリシーをランダムに導くことを示す。我々は,既存の手法に対する$\texttt{APO}$の有効性を検証するために,実用的な選好データセットに関する詳細な実験的な評価を行い,コスト効率とスケーラブルな方法でアライメントのサンプル効率と実用的なソリューションとして確立した。

関連論文リスト

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences? [20.004349891563706]
事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。本稿では,最適達成可能な平均効用量と学習ポリシーの平均効用量との最悪のケース比について,アライメント手法の歪みを紹介する。
論文参考訳（メタデータ） (2025-05-29T17:59:20Z)
Data Mixture Optimization: A Multi-fidelity Multi-scale Bayesian Framework [10.317740844867913]
我々は,SlimPajamaデータセットから,さまざまなデータ構成を用いて,472言語モデルによる事前学習実行をベースとしたシミュレータを構築した。単純な取得関数でさえ、20Mから1Bまでのトレーニングモデル間で、原則化されたトレーニング決定を可能にすることを観察する。
論文参考訳（メタデータ） (2025-03-26T22:19:47Z)
Active RLHF via Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文参考訳（メタデータ） (2025-01-31T03:55:10Z)
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。 $chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文参考訳（メタデータ） (2024-07-18T11:08:40Z)
Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文参考訳（メタデータ） (2024-06-21T18:06:30Z)
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。 VPOは、報酬関数の最大値推定を対応する値関数で正規化する。テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文参考訳（メタデータ） (2024-05-29T17:51:42Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文参考訳（メタデータ） (2024-05-24T05:42:11Z)
Provably Robust DPO: Aligning Language Models with Noisy Feedback [10.523790076060171]
ランダムな選好フリップが存在する場合に、ポリシー最適化のための一般的なフレームワークを導入する。本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。 IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO と比較して好みラベルのノイズに対して頑健であることが示された。
論文参考訳（メタデータ） (2024-03-01T09:55:18Z)
Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2024-02-14T18:58:40Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文参考訳（メタデータ） (2023-05-22T11:45:23Z)
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文参考訳（メタデータ） (2023-01-30T07:53:53Z)
Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T03:48:26Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)
A Provably Efficient Sample Collection Strategy for Reinforcement Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。 1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文参考訳（メタデータ） (2020-07-13T15:17:35Z)
Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文参考訳（メタデータ） (2020-04-23T05:00:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。