論文の概要: BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback
- arxiv url: http://arxiv.org/abs/2402.02479v2
- Date: Mon, 10 Jun 2024 10:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 03:49:29.577131
- Title: BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback
- Title(参考訳): BRAIn: フィードバックによる自然言語生成のためのベイジアン・リワード条件の償却推論
- Authors: Gaurav Pandey, Yatin Nandwani, Tahira Naseem, Mayank Mishra, Guangxuan Xu, Dinesh Raghu, Sachindra Joshi, Asim Munawar, Ramón Fernandez Astudillo,
- Abstract要約: 勾配推定の高分散が、これらの手法の成功の欠如の主な原因である。
我々はベイズの規則を用いて DPG, GDC, DPO の目標分布を一般化し、報酬条件後部を定義する。
結果として得られたアプローチは、BRAInと呼ばれ、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 30.894025833141537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distribution matching methods for language model alignment such as Generation with Distributional Control (GDC) and Distributional Policy Gradient (DPG) have not received the same level of attention in reinforcement learning from human feedback (RLHF) as contrastive methods such as Sequence Likelihood Calibration (SLiC), Direct Preference Optimization (DPO) and its variants. We identify high variance of the gradient estimate as the primary reason for the lack of success of these methods and propose a self-normalized baseline to reduce the variance. We further generalize the target distribution in DPG, GDC and DPO by using Bayes' rule to define the reward-conditioned posterior. The resulting approach, referred to as BRAIn - Bayesian Reward-conditioned Amortized Inference acts as a bridge between distribution matching methods and DPO and significantly outperforms prior art in summarization and Antropic HH tasks.
- Abstract(参考訳): GDC(Generation with Distributional Control)やDPG(Distributal Policy Gradient)といった言語モデルアライメントのための分散マッチング手法は,RLHF(Regress Learning from Human feedback)において,SLiC(Sequence Likelihood Calibration)やDPO(Direct Preference Optimization)などの対照的な手法と同等のレベルの注意を払っていない。
本研究では,これらの手法の成功の欠如の主な原因として勾配推定値の高分散を同定し,分散を低減するための自己正規化ベースラインを提案する。
さらにベイズの法則を用いて, DPG, GDC, DPOの目標分布を一般化し, 報酬条件後部を定義する。
BRAIn - Bayesian Reward-conditioned Amortized Inference と呼ばれるこの手法は、分布マッチング法とDPOの間のブリッジとして機能し、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。
関連論文リスト
- Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance [52.093434664236014]
近年の拡散モデルは、特定の逆問題に対して再訓練することなく、ノイズの多い線形逆問題に対する有望なゼロショット解を提供する。
この発見に触発されて、我々は、最大推定値から決定されるより原理化された共分散を用いて、最近の手法を改善することを提案する。
論文 参考訳(メタデータ) (2024-02-03T13:35:39Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep
Learning under Distribution Shift [19.945634052291542]
我々は、WILDSコレクションから現実のデータセットに対する最新のBDLアルゴリズムを評価し、難解な分類と回帰タスクを含む。
我々は、大規模な、畳み込み、トランスフォーマーベースのニューラルネットワークアーキテクチャにおいて、アルゴリズムを比較した。
そこで本研究では,BDLを用いた大規模事前学習モデルのシステム評価を行った。
論文 参考訳(メタデータ) (2023-06-21T14:36:03Z) - Aligning Language Models with Preferences through f-divergence
Minimization [4.952674870169772]
f-DPGは、評価可能な任意のターゲット分布を近似するために、任意のf分割を使用することができる。
本稿では,Jensen-Shannon発散がこれらの目的のバランスを良好に保ち,KL発散を広いマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2023-02-16T10:59:39Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。
提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。
SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文 参考訳(メタデータ) (2020-01-08T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。