論文の概要: Aligning Language Models with Preferences through f-divergence
Minimization
- arxiv url: http://arxiv.org/abs/2302.08215v2
- Date: Tue, 6 Jun 2023 13:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 20:48:22.487289
- Title: Aligning Language Models with Preferences through f-divergence
Minimization
- Title(参考訳): f分割最小化による言語モデルの調整
- Authors: Dongyoung Go, Tomasz Korbak, Germ\'an Kruszewski, Jos Rozen, Nahyeon
Ryu, Marc Dymetman
- Abstract要約: f-DPGは、評価可能な任意のターゲット分布を近似するために、任意のf分割を使用することができる。
本稿では,Jensen-Shannon発散がこれらの目的のバランスを良好に保ち,KL発散を広いマージンで上回っていることを示す。
- 参考スコア(独自算出の注目度): 4.952674870169772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with preferences can be posed as approximating a
target distribution representing some desired behavior. Existing approaches
differ both in the functional form of the target distribution and the algorithm
used to approximate it. For instance, Reinforcement Learning from Human
Feedback (RLHF) corresponds to minimizing a reverse KL from an implicit target
distribution arising from a KL penalty in the objective. On the other hand,
Generative Distributional Control (GDC) has an explicit target distribution and
minimizes a forward KL from it using the Distributional Policy Gradient (DPG)
algorithm. In this paper, we propose a new approach, f-DPG, which allows the
use of any f-divergence to approximate any target distribution that can be
evaluated. f-DPG unifies both frameworks (RLHF, GDC) and the approximation
methods (DPG, RL with KL penalties). We show the practical benefits of various
choices of divergence objectives and demonstrate that there is no universally
optimal objective but that different divergences present different alignment
and diversity trade-offs. We show that Jensen-Shannon divergence strikes a good
balance between these objectives, and frequently outperforms forward KL
divergence by a wide margin, leading to significant improvements over prior
work. These distinguishing characteristics between divergences persist as the
model size increases, highlighting the importance of selecting appropriate
divergence objectives.
- Abstract(参考訳): 好みを持つ言語モデルをアライメントすることは、望ましい振る舞いを表すターゲット分布の近似として表すことができる。
既存のアプローチは、ターゲット分布の関数形式と、それを近似するアルゴリズムの両方が異なる。
例えば、人間フィードバックからの強化学習(RLHF)は、目的のKLペナルティから生じる暗黙の目標分布から逆KLを最小化する。
一方、生成分布制御 (gdc) は明示的な目標分布を持ち、分布政策勾配 (distributional policy gradient, dpg) アルゴリズムを用いてそれからの前方klを最小化する。
本稿では, f-divergence を用いて評価可能な任意の対象分布を近似する新しい手法 f-DPG を提案する。
f-DPGは、フレームワーク(RLHF, GDC)と近似方法(DPG, RL with KL penalties)を統一する。
分散目的の様々な選択の実用的メリットを示し、普遍的に最適な目的はなく、異なる分岐が異なるアライメントと多様性のトレードオフを示すことを示す。
ジェンセン=シャノンの発散はこれらの目標のバランスを良好に保ち、しばしば前方のkl発散を大きく上回っており、先行研究よりも大幅に改善している。
これらの違いはモデルのサイズが大きくなるにつれて持続し、適切な分散目的を選択することの重要性を強調している。
関連論文リスト
- MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback [30.894025833141537]
勾配推定の高分散が、これらの手法の成功の欠如の主な原因である。
我々はベイズの規則を用いて DPG, GDC, DPO の目標分布を一般化し、報酬条件後部を定義する。
結果として得られたアプローチは、BRAInと呼ばれ、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-04T13:16:29Z) - Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。
我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。
適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文 参考訳(メタデータ) (2023-12-20T15:50:16Z) - Adaptive importance sampling for heavy-tailed distributions via
$\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。
我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。
これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文 参考訳(メタデータ) (2023-10-25T14:07:08Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - A Variational Perspective on Generative Flow Networks [21.97829447881589]
生成フローネットワーク(GFN)は複合オブジェクトの逐次サンプリングのためのモデルである。
GFNの変動目的を,KL(Kullback-Leibler)の前方分布と後方分布の相違点の観点から定義する。
論文 参考訳(メタデータ) (2022-10-14T17:45:59Z) - Score-Based Diffusion meets Annealed Importance Sampling [89.92133671626327]
Annealed Importance Smpling はいまだに限界推定の最も効果的な方法の1つである。
我々は、スコアベース生成モデルにおける最近の進歩を活用し、AIS提案の最適拡張目標分布を近似する。
論文 参考訳(メタデータ) (2022-08-16T12:13:29Z) - Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。
本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。
本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文 参考訳(メタデータ) (2021-07-29T17:42:12Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。