論文の概要: Aligning Language Models with Preferences through f-divergence
Minimization
- arxiv url: http://arxiv.org/abs/2302.08215v1
- Date: Thu, 16 Feb 2023 10:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:06:55.548842
- Title: Aligning Language Models with Preferences through f-divergence
Minimization
- Title(参考訳): f分割最小化による言語モデルの調整
- Authors: Dongyoung Go, Tomasz Korbak, Germ\'an Kruszewski, Jos Rozen, Nahyeon
Ryu, Marc Dymetman
- Abstract要約: f-DPG は任意の f 分割を使って任意の対象分布を近似することができる。
普遍的に最適な目的は存在しないが、異なる分岐は異なる目標を近似するのに適していることが示される。
- 参考スコア(独自算出の注目度): 4.952674870169772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with preferences can be posed as approximating a
target distribution representing some desired behavior. Existing approaches
differ both in the functional form of the target distribution and the algorithm
used to approximate it. For instance, Reinforcement Learning from Human
Feedback (RLHF) corresponds to minimizing a reverse KL from an implicit target
distribution arising from a KL penalty in the objective. On the other hand,
Generative Distributional Control (GDC) has an explicit target distribution and
minimizes a forward KL from it using the Distributional Policy Gradient (DPG)
algorithm. In this paper, we propose a new approach, f-DPG, which allows the
use of any f-divergence to approximate any target distribution. f-DPG unifies
both frameworks (RLHF, GDC) and the approximation methods (DPG, RL with KL
penalties). We show the practical benefits of various choices of divergence
objectives and demonstrate that there is no universally optimal objective but
that different divergences are good for approximating different targets. For
instance, we discover that for GDC, the Jensen-Shannon divergence frequently
outperforms forward KL divergence by a wide margin, leading to significant
improvements over prior work.
- Abstract(参考訳): 好みを持つ言語モデルをアライメントすることは、望ましい振る舞いを表すターゲット分布の近似として表すことができる。
既存のアプローチは、ターゲット分布の関数形式と、それを近似するアルゴリズムの両方が異なる。
例えば、人間フィードバックからの強化学習(RLHF)は、目的のKLペナルティから生じる暗黙の目標分布から逆KLを最小化する。
一方、生成分布制御 (gdc) は明示的な目標分布を持ち、分布政策勾配 (distributional policy gradient, dpg) アルゴリズムを用いてそれからの前方klを最小化する。
本稿では, f-divergence を用いて任意の対象分布を近似する新しい手法 f-DPG を提案する。
f-DPGは、フレームワーク(RLHF, GDC)と近似方法(DPG, RL with KL penalties)を統一する。
分散目的の様々な選択の実用的利点を示し、普遍的に最適な目的は存在しないが、異なる分岐は異なる目標を近似するのに良いことを実証する。
例えば、GDCの場合、Jensen-Shannonの発散はKL発散よりも広いマージンでしばしば優れており、以前の作業よりも大幅に改善されている。
関連論文リスト
- MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback [30.894025833141537]
勾配推定の高分散が、これらの手法の成功の欠如の主な原因である。
我々はベイズの規則を用いて DPG, GDC, DPO の目標分布を一般化し、報酬条件後部を定義する。
結果として得られたアプローチは、BRAInと呼ばれ、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-04T13:16:29Z) - Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。
我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。
適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文 参考訳(メタデータ) (2023-12-20T15:50:16Z) - Adaptive importance sampling for heavy-tailed distributions via
$\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。
我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。
これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文 参考訳(メタデータ) (2023-10-25T14:07:08Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - A Variational Perspective on Generative Flow Networks [21.97829447881589]
生成フローネットワーク(GFN)は複合オブジェクトの逐次サンプリングのためのモデルである。
GFNの変動目的を,KL(Kullback-Leibler)の前方分布と後方分布の相違点の観点から定義する。
論文 参考訳(メタデータ) (2022-10-14T17:45:59Z) - Score-Based Diffusion meets Annealed Importance Sampling [89.92133671626327]
Annealed Importance Smpling はいまだに限界推定の最も効果的な方法の1つである。
我々は、スコアベース生成モデルにおける最近の進歩を活用し、AIS提案の最適拡張目標分布を近似する。
論文 参考訳(メタデータ) (2022-08-16T12:13:29Z) - Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。
本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。
本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文 参考訳(メタデータ) (2021-07-29T17:42:12Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。