Fugu-MT 論文翻訳(概要): Self-Rewarding Language Models

論文の概要: Self-Rewarding Language Models

arxiv url: http://arxiv.org/abs/2401.10020v1
Date: Thu, 18 Jan 2024 14:43:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 16:26:13.930883
Title: Self-Rewarding Language Models
Title（参考訳）: 自己回帰言語モデル
Authors: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston
Abstract要約: 言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
参考スコア（独自算出の注目度）: 84.68164015700198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study, this work opens the door to the possibility of models that can continually improve in both axes.
Abstract（参考訳）: 超人的エージェントを実現するために、将来のモデルは適切な訓練信号を提供するために超人的フィードバックを必要とすると仮定する。現在のアプローチでは、人間の好みから報酬モデルをトレーニングするのが一般的で、人間のパフォーマンスレベルによってボトルネックになる可能性がある。本研究では,言語モデル自体を LLM-as-a-Judge 経由で使用する自己回帰言語モデルについて検討する。反復的dpo訓練では,指導追従能力が向上するだけでなく,質の高い報酬を提供する能力も向上することを示した。 Llama 2 70Bは、我々のアプローチの3つのイテレーションで、Claude 2、Gemini Pro、GPT-4 0613を含む、AlpacaEval 2.0のリーダーボード上の多くの既存のシステムを上回るパフォーマンスのモデルを生み出します。予備的な研究にすぎないが、この研究は両方の軸で継続的に改善できるモデルの可能性への扉を開く。

関連論文リスト

Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文参考訳（メタデータ） (2025-06-29T13:45:54Z)
GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
Unsupervised Elicitation of Language Models [37.00621880299302]
我々は,教師なしの新たなアルゴリズムである内部コヒーレンス最大化(ICM)を導入し,独自のラベルで事前学習した言語モデルを微調整する。 GSM8k-verification, TruthfulQA, and Alpaca reward modeling taskについて,本手法はゴールデン・インスペクションのトレーニング性能と一致した。 LMの能力が強大な超人であるタスクにおいて、この手法は人間のラベルのトレーニングよりもはるかに優れた能力を引き出すことができる。
論文参考訳（メタデータ） (2025-06-11T19:40:08Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-01T07:29:03Z)
On Designing Effective RL Reward at Training Time for LLM Reasoning [14.006845442313134]
我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。 Clipping と Delta の2つの新しい報酬改善手法を紹介した。
論文参考訳（メタデータ） (2024-10-19T13:53:50Z)
The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models [18.64902083536956]
適度に正確な報酬モデルで訓練された言語モデルは、高い精度で指導された言語よりも優れていることを示す。このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦する。
論文参考訳（メタデータ） (2024-10-09T05:17:08Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge [77.9094410773789]
大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。近年の自己回帰機構では、LDMは人間のラベルに頼らず、自分自身の反応を判断することで改善可能であることが示されている。本稿では,自己改善プロセスにメタリワードの新たなステップを導入し,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる。
論文参考訳（メタデータ） (2024-07-28T21:58:28Z)
Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。 DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文参考訳（メタデータ） (2024-06-14T06:57:18Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文参考訳（メタデータ） (2021-12-16T18:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。