論文の概要: A Bi-objective Perspective on Controllable Language Models: Reward
Dropout Improves Off-policy Control Performance
- arxiv url: http://arxiv.org/abs/2310.04483v1
- Date: Fri, 6 Oct 2023 12:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:09:47.113196
- Title: A Bi-objective Perspective on Controllable Language Models: Reward
Dropout Improves Off-policy Control Performance
- Title(参考訳): 制御可能な言語モデルに関する二目的的視点:Reward Dropoutによる外部制御性能の向上
- Authors: Changhun Lee and Chiehyeon Lim
- Abstract要約: 本稿では,CLM(Controllable Language Models)の理論的側面を客観的な最適化の観点から検討する。
我々はCLMを、報酬と可能性の目標を同時に最大化する必要がある、政治的でないRL問題だと考えている。
- 参考スコア(独自算出の注目度): 7.479948090364416
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the theoretical aspects of CLMs (Controllable Language Models) from
a bi-objective optimization perspective. Specifically, we consider the CLMs as
an off-policy RL problem that requires simultaneously maximizing the reward and
likelihood objectives. Our main contribution consists of three parts. First, we
establish the theoretical foundations of CLM by presenting reward upper bound
and Pareto improvement/optimality conditions. Second, we analyze conditions
that improve and violate Pareto optimality itself, respectively. Finally, we
propose Reward Dropout, a simple yet powerful method to guarantee policy
improvement based on a Pareto improvement condition. Our theoretical outcomes
are supported by not only deductive proofs but also empirical results. The
performance of Reward Dropout was evaluated on five CLM benchmark datasets, and
it turns out that the Reward Dropout significantly improves the performance of
CLMs.
- Abstract(参考訳): 本稿では,CLM(Controllable Language Models)の理論的側面を客観的な最適化の観点から検討する。
具体的には、CLMを、報酬と可能性の最大化を同時に要求する、政治的でないRL問題とみなす。
私たちの主な貢献は3つの部分からなる。
まず, 報酬の上限とパレート改善/最適化条件を提示することにより, clm の理論的基礎を確立する。
第2に,Paretoの最適性自体を改善および侵害する条件をそれぞれ分析する。
最後に,パレート改善条件に基づく政策改善を保証するシンプルかつ強力な手法である報酬ドロップアウトを提案する。
我々の理論的な結果は推論的証明だけでなく経験的結果によっても支持されている。
報酬ドロップアウトのパフォーマンスは5つのclmベンチマークデータセットで評価され、報酬ドロップアウトがclmのパフォーマンスを大幅に改善することが判明した。
関連論文リスト
- Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement [40.57471062885033]
我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。