論文の概要: Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
- arxiv url: http://arxiv.org/abs/2407.19594v2
- Date: Tue, 30 Jul 2024 01:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:20:00.577648
- Title: Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
- Title(参考訳): メタリワード言語モデル: LLM-as-a-Meta-Judgeによる自己改善型アライメント
- Authors: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar,
- Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。
近年の自己回帰機構では、LDMは人間のラベルに頼らず、自分自身の反応を判断することで改善可能であることが示されている。
本稿では,自己改善プロセスにメタリワードの新たなステップを導入し,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる。
- 参考スコア(独自算出の注目度): 77.9094410773789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。
これらのモデルの改善は伝統的に人的データに頼っているが、近年の自己回帰機構(Yuan et al , 2024)は、LLMが人間のラベルに頼らず、自分自身の反応を判断することで改善できることを示した。
しかし、既存の手法は主に判断能力よりもモデル応答の改善に重点を置いており、反復訓練中に急速に飽和する。
この問題に対処するために,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる,自己改善プロセスに新たなメタリワード(Meta-Rewarding)ステップを導入する。
驚くべきことに、この教師なしのアプローチはモデルの判断能力を改善し、AlpacaEval 2では22.9%から39.4%、Arena-Hardでは20.6%から29.1%と、Llama-3-8B-Instructの勝利率の改善によって示されるように、指示に従う。
これらの結果は,人間の監督を伴わない自己改善モデルの可能性が強く示唆された。
関連論文リスト
- Progress or Regress? Self-Improvement Reversal in Post-training [26.051637877066327]
本稿では,自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査する包括的評価フレームワークを提案する。
ベンチマークで改善されたパフォーマンスを示すモデルは、パラドックス的により広範で必須の能力の低下を示す。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-06T09:07:11Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
このアプローチの重要な特性は、ステップ2の批判モデルがエラーに関するきめ細かいフィードバックを与えてくれることです。
文書基盤要約の現実的整合性を改善する作業において,異なる機能モデルがこのアプローチの精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Teaching Language Models to Self-Improve by Learning from Language Feedback [40.649677201161744]
本稿では、モデルフィードバックをアライメントに活用するSRT(Self-Refinement Tuning)を提案する。
SRTはベース言語モデル(例えばTulu2)を使用して、より高度なモデルによって批判され洗練される初期応答を生成する。
SRTはさらに、自己生成したフィードバックと改善から学び、モデルの改善を促進するフィードバックループを作成することで、モデルを最適化する。
論文 参考訳(メタデータ) (2024-06-11T11:20:05Z) - Self-Rewarding Language Models [105.6830788170348]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。
反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文 参考訳(メタデータ) (2024-01-18T14:43:47Z) - Prototypical Self-Explainable Models Without Re-training [5.837536154627278]
自己説明可能なモデル(SEM)は、予測とともに説明を提供するために直接訓練される。
現在のSEMは複雑なアーキテクチャと高度に規則化された損失関数を必要とするため、具体的かつコストのかかる訓練が必要である。
我々は、既存の事前学習されたモデルからプロトタイプSEMに変換することができる、KMExと呼ばれる単純で効率的な普遍的手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T01:15:00Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。