論文の概要: Self-Rewarding Language Models
- arxiv url: http://arxiv.org/abs/2401.10020v1
- Date: Thu, 18 Jan 2024 14:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:26:13.930883
- Title: Self-Rewarding Language Models
- Title(参考訳): 自己回帰言語モデル
- Authors: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar
Sukhbaatar, Jing Xu, Jason Weston
- Abstract要約: 言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。
反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
- 参考スコア(独自算出の注目度): 84.68164015700198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We posit that to achieve superhuman agents, future models require superhuman
feedback in order to provide an adequate training signal. Current approaches
commonly train reward models from human preferences, which may then be
bottlenecked by human performance level, and secondly these separate frozen
reward models cannot then learn to improve during LLM training. In this work,
we study Self-Rewarding Language Models, where the language model itself is
used via LLM-as-a-Judge prompting to provide its own rewards during training.
We show that during Iterative DPO training that not only does instruction
following ability improve, but also the ability to provide high-quality rewards
to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a
model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,
including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,
this work opens the door to the possibility of models that can continually
improve in both axes.
- Abstract(参考訳): 超人的エージェントを実現するために、将来のモデルは適切な訓練信号を提供するために超人的フィードバックを必要とすると仮定する。
現在のアプローチでは、人間の好みから報酬モデルをトレーニングするのが一般的で、人間のパフォーマンスレベルによってボトルネックになる可能性がある。
本研究では,言語モデル自体を LLM-as-a-Judge 経由で使用する自己回帰言語モデルについて検討する。
反復的dpo訓練では,指導追従能力が向上するだけでなく,質の高い報酬を提供する能力も向上することを示した。
Llama 2 70Bは、我々のアプローチの3つのイテレーションで、Claude 2、Gemini Pro、GPT-4 0613を含む、AlpacaEval 2.0のリーダーボード上の多くの既存のシステムを上回るパフォーマンスのモデルを生み出します。
予備的な研究にすぎないが、この研究は両方の軸で継続的に改善できるモデルの可能性への扉を開く。
関連論文リスト
- Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。
AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。
本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - VLRM: Vision-Language Models act as Reward Models for Image Captioning [45.59831141171801]
本稿では,CLIP や BLIP2-ITM などの視覚言語モデルを用いた画像キャプションモデルの拡張手法を提案する。
われわれのモデルはMS-COCO Carpathy Test Splitで0.90 R@1 CLIP Recallスコアに達した。
論文 参考訳(メタデータ) (2024-04-02T12:57:22Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
RewardBenchデータセットは、チャット、推論、安全性にまたがる、プロンプト・ウィン・ローズ・トリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - H2O-Danube-1.8B Technical Report [2.6856284636402106]
本稿では,H2O-Danubeについて述べる。
H2O-Danube2-1.8B は2Bパラメータ範囲以下の全てのモデルで Open LLM Leaderboard でトップランクを獲得している。
論文 参考訳(メタデータ) (2024-01-30T08:45:08Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。
中国の公共のPLMと比較すると、メンジは単純だがより強力である。
我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文 参考訳(メタデータ) (2021-10-13T13:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。