論文の概要: Self-Improving Robust Preference Optimization
- arxiv url: http://arxiv.org/abs/2406.01660v2
- Date: Wed, 5 Jun 2024 01:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:59:09.562631
- Title: Self-Improving Robust Preference Optimization
- Title(参考訳): 自己改善ロバスト推論最適化
- Authors: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar,
- Abstract要約: Self-Improving Robust Preference Optimization SRPOは、実用的で数学的に原理化されたオフラインRLHFフレームワークである。
特に、SRPOがOOD XSUMデータセットで評価されると、5回の自己修正で15%の明確なマージンで、DPOを上回ります。
- 参考スコア(独自算出の注目度): 22.493029742076605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%.
- Abstract(参考訳): PPOやDPOのようなオンラインおよびオフラインのRLHFメソッドは、AIと人間の好みを合わせることに成功している。
彼らの成功にもかかわらず、既存の手法は、その最適解がタスク依存性が高いという根本的な問題に悩まされている(すなわち、アウト・オブ・ディストリビューション(OOD)タスクに対して堅牢ではない)。
本稿では、タスクの変更に対して完全に堅牢な、実用的で数学的に原則化されたオフラインRLHFフレームワークである、自己改善ロバスト推論最適化SRPOを提案することで、この問題に対処する。
SRPOの鍵となる考え方は、人間の嗜好から学ぶことの問題を自己改善のプロセスとして提示することであり、これは、自己改善政策の協調最適化と、敵のやり方で生成政策を共同で最適化することを目的とした、min-max目的の数学的表現によって表現することができる。
この最適化問題の解決策は、トレーニングタスクとは独立しているため、その変更に対して堅牢である。
そこで我々は,この目的を,報酬モデルやオンライン推論を必要とせずに,標準化された最適化手法を用いて大規模に最適化できる非逆オフライン損失の形で再表現できることを示す。
本稿では,AI Win-Rate (WR) による人間(GOLD) の完成に対するSRPOの有効性を示す。
特に、SRPOがOOD XSUMデータセットで評価されると、5回の自己修正で15%の明確なマージンを達成し、90%のWRを達成する。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。