Fugu-MT 論文翻訳(概要): Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints

論文の概要: Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints

arxiv url: http://arxiv.org/abs/2309.16240v1
Date: Thu, 28 Sep 2023 08:29:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 15:41:40.024693
Title: Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints
Title（参考訳）: beyond reverse kl: 多様な分岐制約による直接選好最適化の一般化
Authors: Chaoqi Wang, Yibo Jiang, Chenghao Yang, Han Liu, Yuxin Chen
Abstract要約: 大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。 RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。 DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
参考スコア（独自算出の注目度）: 26.274786600234876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing capabilities of large language models (LLMs) raise opportunities for artificial general intelligence but concurrently amplify safety concerns, such as potential misuse of AI systems, necessitating effective AI alignment. Reinforcement Learning from Human Feedback (RLHF) has emerged as a promising pathway towards AI alignment but brings forth challenges due to its complexity and dependence on a separate reward model. Direct Preference Optimization (DPO) has been proposed as an alternative, and it remains equivalent to RLHF under the reverse KL regularization constraint. This paper presents $f$-DPO, a generalized approach to DPO by incorporating diverse divergence constraints. We show that under certain $f$-divergences, including Jensen-Shannon divergence, forward KL divergences and $\alpha$-divergences, the complex relationship between the reward and optimal policy can also be simplified by addressing the Karush-Kuhn-Tucker conditions. This eliminates the need for estimating the normalizing constant in the Bradley-Terry model and enables a tractable mapping between the reward function and the optimal policy. Our approach optimizes LLMs to align with human preferences in a more efficient and supervised manner under a broad set of divergence constraints. Empirically, adopting these divergences ensures a balance between alignment performance and generation diversity. Importantly, $f$-DPO outperforms PPO-based methods in divergence efficiency, and divergence constraints directly influence expected calibration error (ECE).
Abstract（参考訳）: 大規模言語モデル(LLM)の能力の増大は、人工知能の機会を高めるが、AIシステムの潜在的な誤用や効果的なAIアライメントの必要性など、安全性上の懸念を同時に増幅する。 Reinforcement Learning from Human Feedback (RLHF)は、AIアライメントへの有望な経路として登場したが、その複雑さと、別の報酬モデルへの依存により、課題が持ち上がった。直接選好最適化(DPO)は代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。本稿では多種多様な分散制約を組み込んだDPOに対する一般化アプローチである$f$-DPOを提案する。また,jensen-shannon divergence, forward kl divergences および $\alpha$-divergences を含むある種の$f$-divergences の下では,karush-kuhn-tucker条件に対処して,報酬と最適政策の複雑な関係も単純化できることを示した。これにより、Bradley-Terryモデルにおける正規化定数を推定する必要がなくなり、報酬関数と最適ポリシーの間のトラクタブルマッピングが可能になる。提案手法は,広範に分散した制約の下で,より効率的かつ教師付きなLLMを最適化する。経験的に、これらの分岐を採用することで、アライメントのパフォーマンスと生成の多様性のバランスが保証される。重要なことに、$f$-DPOは分散効率においてPPOベースの手法よりも優れており、分散制約は予測校正誤差(ECE)に直接影響する。

関連論文リスト

Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文参考訳（メタデータ） (2024-11-12T07:09:44Z)
SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF [22.88031166401938]
本稿では、より柔軟でより良い位置参照モデルを作成することにより、制限を克服する新しいアプローチであるSALSAを提案する。 SALSAは、より良い探索を奨励し、より高い報酬を達成し、モデルの堅牢性、アウト・オブ・ディストリビューション、パフォーマンスを向上させる。
論文参考訳（メタデータ） (2024-11-04T04:53:43Z)
Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。 HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
$α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文参考訳（メタデータ） (2024-10-14T04:29:57Z)
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。 $chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。 $chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文参考訳（メタデータ） (2024-07-18T11:08:40Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。