論文の概要: Reward Dropout Improves Control: Bi-objective Perspective on Reinforced
LM
- arxiv url: http://arxiv.org/abs/2310.04483v2
- Date: Fri, 24 Nov 2023 07:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 03:01:05.573494
- Title: Reward Dropout Improves Control: Bi-objective Perspective on Reinforced
LM
- Title(参考訳): 報酬ドロップアウトによる制御改善 - 強化lmの双方向視点
- Authors: Changhun Lee and Chiehyeon Lim
- Abstract要約: 本稿では,2目的最適化の観点から,強化言語モデル(RLM)の理論的側面について考察する。
本稿では,RLMの双方向最適化を改善するための簡易かつ強力な手法であるReward Dropoutを提案する。
- 参考スコア(独自算出の注目度): 7.479948090364416
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the theoretical aspects of Reinforced Language Models (RLMs) from a
bi-objective optimization perspective. Specifically, we consider the RLMs as a
Pareto optimization problem that maximizes the two conflicting objectives,
i.e., reward objective and likelihood objectives, simultaneously. Our main
contribution consists of three parts. First, we establish the theoretical
foundations of RLM as a Pareto optimization problem by presenting Reward Upper
BOund (RUBO) and Pareto optimality. Our theoretical outcomes are supported by
not only deductive proofs but also empirical results. Second, we propose Reward
Dropout, a simple yet powerful method that guarantees to improve a bi-objective
optimization of RLM. Lastly, we demonstrate that the Reward Dropout is
consistently effective across five benchmark datasets and four benchmark LLMs,
meaning that the Reward Dropout significantly improves the optimization
performance of RLMs.
- Abstract(参考訳): 二目的最適化の観点から強化言語モデル(rlms)の理論的側面について検討する。
具体的には、RLMを2つの相反する目的、すなわち報酬目的と可能性目標を同時に最大化するパレート最適化問題とみなす。
私たちの主な貢献は3つの部分からなる。
まず,Reward Upper Bound(RUBO)とParetoOptimityを提示することにより,RLMの理論的基礎をパレート最適化問題として確立する。
我々の理論的な結果は推論的証明だけでなく経験的結果によっても支持されている。
第2に,RLMの双方向最適化を改善するための簡易かつ強力な手法であるReward Dropoutを提案する。
最後に、Reward Dropoutは5つのベンチマークデータセットと4つのベンチマークLDMで一貫して有効であることを示し、Reward DropoutはRLMの最適化性能を大幅に改善する。
関連論文リスト
- Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement [40.57471062885033]
我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。