Fugu-MT 論文翻訳(概要): Aligning Language Models with Preferences through f-divergence Minimization

論文の概要: Aligning Language Models with Preferences through f-divergence Minimization

arxiv url: http://arxiv.org/abs/2302.08215v1
Date: Thu, 16 Feb 2023 10:59:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-17 14:06:55.548842
Title: Aligning Language Models with Preferences through f-divergence Minimization
Title（参考訳）: f分割最小化による言語モデルの調整
Authors: Dongyoung Go, Tomasz Korbak, Germ\'an Kruszewski, Jos Rozen, Nahyeon Ryu, Marc Dymetman
Abstract要約: f-DPG は任意の f 分割を使って任意の対象分布を近似することができる。普遍的に最適な目的は存在しないが、異なる分岐は異なる目標を近似するのに適していることが示される。
参考スコア（独自算出の注目度）: 4.952674870169772
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning language models with preferences can be posed as approximating a target distribution representing some desired behavior. Existing approaches differ both in the functional form of the target distribution and the algorithm used to approximate it. For instance, Reinforcement Learning from Human Feedback (RLHF) corresponds to minimizing a reverse KL from an implicit target distribution arising from a KL penalty in the objective. On the other hand, Generative Distributional Control (GDC) has an explicit target distribution and minimizes a forward KL from it using the Distributional Policy Gradient (DPG) algorithm. In this paper, we propose a new approach, f-DPG, which allows the use of any f-divergence to approximate any target distribution. f-DPG unifies both frameworks (RLHF, GDC) and the approximation methods (DPG, RL with KL penalties). We show the practical benefits of various choices of divergence objectives and demonstrate that there is no universally optimal objective but that different divergences are good for approximating different targets. For instance, we discover that for GDC, the Jensen-Shannon divergence frequently outperforms forward KL divergence by a wide margin, leading to significant improvements over prior work.
Abstract（参考訳）: 好みを持つ言語モデルをアライメントすることは、望ましい振る舞いを表すターゲット分布の近似として表すことができる。既存のアプローチは、ターゲット分布の関数形式と、それを近似するアルゴリズムの両方が異なる。例えば、人間フィードバックからの強化学習(RLHF)は、目的のKLペナルティから生じる暗黙の目標分布から逆KLを最小化する。一方、生成分布制御 (gdc) は明示的な目標分布を持ち、分布政策勾配 (distributional policy gradient, dpg) アルゴリズムを用いてそれからの前方klを最小化する。本稿では, f-divergence を用いて任意の対象分布を近似する新しい手法 f-DPG を提案する。 f-DPGは、フレームワーク(RLHF, GDC)と近似方法(DPG, RL with KL penalties)を統一する。分散目的の様々な選択の実用的利点を示し、普遍的に最適な目的は存在しないが、異なる分岐は異なる目標を近似するのに良いことを実証する。例えば、GDCの場合、Jensen-Shannonの発散はKL発散よりも広いマージンでしばしば優れており、以前の作業よりも大幅に改善されている。

関連論文リスト

Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文参考訳（メタデータ） (2025-06-05T16:59:53Z)
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T11:08:32Z)
Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-26T05:50:33Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback [30.894025833141537]
勾配推定の高分散が、これらの手法の成功の欠如の主な原因である。我々はベイズの規則を用いて DPG, GDC, DPO の目標分布を一般化し、報酬条件後部を定義する。結果として得られたアプローチは、BRAInと呼ばれ、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。
論文参考訳（メタデータ） (2024-02-04T13:16:29Z)
Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文参考訳（メタデータ） (2023-12-20T15:50:16Z)
Adaptive importance sampling for heavy-tailed distributions via $\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文参考訳（メタデータ） (2023-10-25T14:07:08Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
A Variational Perspective on Generative Flow Networks [21.97829447881589]
生成フローネットワーク(GFN)は複合オブジェクトの逐次サンプリングのためのモデルである。 GFNの変動目的を,KL(Kullback-Leibler)の前方分布と後方分布の相違点の観点から定義する。
論文参考訳（メタデータ） (2022-10-14T17:45:59Z)
Score-Based Diffusion meets Annealed Importance Sampling [89.92133671626327]
Annealed Importance Smpling はいまだに限界推定の最も効果的な方法の1つである。我々は、スコアベース生成モデルにおける最近の進歩を活用し、AIS提案の最適拡張目標分布を近似する。
論文参考訳（メタデータ） (2022-08-16T12:13:29Z)
Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文参考訳（メタデータ） (2021-07-29T17:42:12Z)
KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文参考訳（メタデータ） (2021-06-14T22:24:23Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。