論文の概要: Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
- arxiv url: http://arxiv.org/abs/2407.19594v1
- Date: Sun, 28 Jul 2024 21:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:35:33.631009
- Title: Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
- Title(参考訳): メタリワード言語モデル: LLM-as-a-Meta-Judgeによる自己改善型アライメント
- Authors: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar,
- Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。
近年の自己回帰機構では、LDMは人間のラベルに頼らず、自分自身の反応を判断することで改善可能であることが示されている。
本稿では,自己改善プロセスにメタリワードの新たなステップを導入し,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる。
- 参考スコア(独自算出の注目度): 77.9094410773789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。
これらのモデルの改善は伝統的に人的データに頼っているが、近年の自己回帰機構(Yuan et al , 2024)は、LLMが人間のラベルに頼らず、自分自身の反応を判断することで改善できることを示した。
しかし、既存の手法は主に判断能力よりもモデル応答の改善に重点を置いており、反復訓練中に急速に飽和する。
この問題に対処するために,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる,自己改善プロセスに新たなメタリワード(Meta-Rewarding)ステップを導入する。
驚くべきことに、この教師なしのアプローチはモデルの判断能力を改善し、AlpacaEval 2では22.9%から39.4%、Arena-Hardでは20.6%から29.1%と、Llama-3-8B-Instructの勝利率の改善によって示されるように、指示に従う。
これらの結果は,人間の監督を伴わない自己改善モデルの可能性が強く示唆された。
関連論文リスト
- Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Teaching Language Models to Self-Improve by Learning from Language Feedback [40.649677201161744]
本稿では、モデルフィードバックをアライメントに活用するSRT(Self-Refinement Tuning)を提案する。
SRTはベース言語モデル(例えばTulu2)を使用して、より高度なモデルによって批判され洗練される初期応答を生成する。
SRTはさらに、自己生成したフィードバックと改善から学び、モデルの改善を促進するフィードバックループを作成することで、モデルを最適化する。
論文 参考訳(メタデータ) (2024-06-11T11:20:05Z) - Self-Rewarding Language Models [105.6830788170348]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。
反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文 参考訳(メタデータ) (2024-01-18T14:43:47Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。