論文の概要: Self-Rewarding Language Models
- arxiv url: http://arxiv.org/abs/2401.10020v1
- Date: Thu, 18 Jan 2024 14:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:26:13.930883
- Title: Self-Rewarding Language Models
- Title(参考訳): 自己回帰言語モデル
- Authors: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar
Sukhbaatar, Jing Xu, Jason Weston
- Abstract要約: 言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。
反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
- 参考スコア(独自算出の注目度): 84.68164015700198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We posit that to achieve superhuman agents, future models require superhuman
feedback in order to provide an adequate training signal. Current approaches
commonly train reward models from human preferences, which may then be
bottlenecked by human performance level, and secondly these separate frozen
reward models cannot then learn to improve during LLM training. In this work,
we study Self-Rewarding Language Models, where the language model itself is
used via LLM-as-a-Judge prompting to provide its own rewards during training.
We show that during Iterative DPO training that not only does instruction
following ability improve, but also the ability to provide high-quality rewards
to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a
model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,
including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,
this work opens the door to the possibility of models that can continually
improve in both axes.
- Abstract(参考訳): 超人的エージェントを実現するために、将来のモデルは適切な訓練信号を提供するために超人的フィードバックを必要とすると仮定する。
現在のアプローチでは、人間の好みから報酬モデルをトレーニングするのが一般的で、人間のパフォーマンスレベルによってボトルネックになる可能性がある。
本研究では,言語モデル自体を LLM-as-a-Judge 経由で使用する自己回帰言語モデルについて検討する。
反復的dpo訓練では,指導追従能力が向上するだけでなく,質の高い報酬を提供する能力も向上することを示した。
Llama 2 70Bは、我々のアプローチの3つのイテレーションで、Claude 2、Gemini Pro、GPT-4 0613を含む、AlpacaEval 2.0のリーダーボード上の多くの既存のシステムを上回るパフォーマンスのモデルを生み出します。
予備的な研究にすぎないが、この研究は両方の軸で継続的に改善できるモデルの可能性への扉を開く。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - On Designing Effective RL Reward at Training Time for LLM Reasoning [14.006845442313134]
我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。
驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。
Clipping と Delta の2つの新しい報酬改善手法を紹介した。
論文 参考訳(メタデータ) (2024-10-19T13:53:50Z) - The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models [18.64902083536956]
適度に正確な報酬モデルで訓練された言語モデルは、高い精度で指導された言語よりも優れていることを示す。
このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-09T05:17:08Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge [77.9094410773789]
大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。
近年の自己回帰機構では、LDMは人間のラベルに頼らず、自分自身の反応を判断することで改善可能であることが示されている。
本稿では,自己改善プロセスにメタリワードの新たなステップを導入し,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる。
論文 参考訳(メタデータ) (2024-07-28T21:58:28Z) - Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。