Fugu-MT 論文翻訳(概要): BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback

論文の概要: BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback

arxiv url: http://arxiv.org/abs/2402.02479v1
Date: Sun, 4 Feb 2024 13:16:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 19:25:16.945186
Title: BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback
Title（参考訳）: BRAIn: フィードバックによる自然言語生成のためのベイジアン・リワード条件の償却推論
Authors: Gaurav Pandey, Yatin Nandwani, Tahira Naseem, Mayank Mishra, Guangxuan Xu, Dinesh Raghu, Sachindra Joshi, Asim Munawar, Ram\'on Fernandez Astudillo
Abstract要約: 本稿では,分布マッチング手法の一環として,リワードモデル(RM)を再導入する新しい手法であるBRAInを提案する。 BRAInは,要約やアントロピックHHタスクにおいて,先行技術よりも優れていた。
参考スコア（独自算出の注目度）: 29.101429322065908
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Following the success of Proximal Policy Optimization (PPO) for Reinforcement Learning from Human Feedback (RLHF), new techniques such as Sequence Likelihood Calibration (SLiC) and Direct Policy Optimization (DPO) have been proposed that are offline in nature and use rewards in an indirect manner. These techniques, in particular DPO, have recently become the tools of choice for LLM alignment due to their scalability and performance. However, they leave behind important features of the PPO approach. Methods such as SLiC or RRHF make use of the Reward Model (RM) only for ranking/preference, losing fine-grained information and ignoring the parametric form of the RM (eg., Bradley-Terry, Plackett-Luce), while methods such as DPO do not use even a separate reward model. In this work, we propose a novel approach, named BRAIn, that re-introduces the RM as part of a distribution matching approach.BRAIn considers the LLM distribution conditioned on the assumption of output goodness and applies Bayes theorem to derive an intractable posterior distribution where the RM is explicitly represented. BRAIn then distills this posterior into an amortized inference network through self-normalized importance sampling, leading to a scalable offline algorithm that significantly outperforms prior art in summarization and AntropicHH tasks. BRAIn also has interesting connections to PPO and DPO for specific RM choices.
Abstract（参考訳）: RLHF(Reinforcement Learning from Human Feedback)の強化学習のためのPPO(Proximal Policy Optimization)の成功に続いて、SLiC(Sequence Likelihood Calibration)やDPO(Direct Policy Optimization)といった新たな手法が提案されている。これらの技術、特にDPOは、最近、スケーラビリティと性能のために、LLMアライメントの選択ツールとなっている。しかし、彼らはPPOアプローチの重要な特徴を残している。 SLiC(英語版)やRRHF(英語版)のような手法は、ランキング/参照にのみReward Model(RM)を使用し、詳細な情報を失い、RMのパラメトリック形式(ブラッドリー・テリー、プラケット・ルーシーなど)を無視している。本研究では,分布マッチング手法の一部としてRMを再導入する新しい手法であるBRAInを提案する。BRAInは,出力良さを仮定したLLM分布を考察し,ベイズ定理を適用して,RMが明示的に表現される難解な後部分布を導出する。 BRAInはこの後部を自己正規化の重要度サンプリングによって償却推論ネットワークに蒸留し、拡張性のあるオフラインアルゴリズムにより、要約やアントロピックHHタスクにおいて先行技術よりも大幅に優れている。 BRAInはまた、特定のRM選択のためにPPOとDPOと興味深い接続を持っている。

関連論文リスト

DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning [30.654668373387214]
拡散選好に基づく報酬獲得法(DPR)を提案する。 DPRは拡散モデルを用いて状態-作用対の選好分布を直接モデル化し、これらの分布から報酬を識別することができる。本手法を既存のオフライン強化学習アルゴリズムに適用し,拡散型報酬獲得手法が従来法およびトランスフォーマー法より優れていることを示す。
論文参考訳（メタデータ） (2025-03-03T03:49:38Z)
Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-26T03:29:27Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance [52.093434664236014]
近年の拡散モデルは、特定の逆問題に対して再訓練することなく、ノイズの多い線形逆問題に対する有望なゼロショット解を提供する。この発見に触発されて、我々は、最大推定値から決定されるより原理化された共分散を用いて、最近の手法を改善することを提案する。
論文参考訳（メタデータ） (2024-02-03T13:35:39Z)
Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文参考訳（メタデータ） (2023-10-11T10:21:34Z)
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。 RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。 DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文参考訳（メタデータ） (2023-09-28T08:29:44Z)
Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep Learning under Distribution Shift [19.945634052291542]
我々は、WILDSコレクションから現実のデータセットに対する最新のBDLアルゴリズムを評価し、難解な分類と回帰タスクを含む。我々は、大規模な、畳み込み、トランスフォーマーベースのニューラルネットワークアーキテクチャにおいて、アルゴリズムを比較した。そこで本研究では,BDLを用いた大規模事前学習モデルのシステム評価を行った。
論文参考訳（メタデータ） (2023-06-21T14:36:03Z)
Aligning Language Models with Preferences through f-divergence Minimization [4.952674870169772]
f-DPGは、評価可能な任意のターゲット分布を近似するために、任意のf分割を使用することができる。本稿では,Jensen-Shannon発散がこれらの目的のバランスを良好に保ち,KL発散を広いマージンで上回っていることを示す。
論文参考訳（メタデータ） (2023-02-16T10:59:39Z)
Learning Calibrated Uncertainties for Domain Shift: A Distributionally Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。提案手法は下流タスクに有利な校正不確実性を生成する。
論文参考訳（メタデータ） (2020-10-08T02:10:54Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。 SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文参考訳（メタデータ） (2020-01-08T17:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。