Fugu-MT 論文翻訳(概要): Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

論文の概要: Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

arxiv url: http://arxiv.org/abs/2407.19594v2
Date: Tue, 30 Jul 2024 01:38:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 12:20:00.577648
Title: Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
Title（参考訳）: メタリワード言語モデル: LLM-as-a-Meta-Judgeによる自己改善型アライメント
Authors: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar,
Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。近年の自己回帰機構では、LDMは人間のラベルに頼らず、自分自身の反応を判断することで改善可能であることが示されている。本稿では,自己改善プロセスにメタリワードの新たなステップを導入し,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる。
参考スコア（独自算出の注目度）: 77.9094410773789
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。これらのモデルの改善は伝統的に人的データに頼っているが、近年の自己回帰機構(Yuan et al , 2024)は、LLMが人間のラベルに頼らず、自分自身の反応を判断することで改善できることを示した。しかし、既存の手法は主に判断能力よりもモデル応答の改善に重点を置いており、反復訓練中に急速に飽和する。この問題に対処するために,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる,自己改善プロセスに新たなメタリワード(Meta-Rewarding)ステップを導入する。驚くべきことに、この教師なしのアプローチはモデルの判断能力を改善し、AlpacaEval 2では22.9%から39.4%、Arena-Hardでは20.6%から29.1%と、Llama-3-8B-Instructの勝利率の改善によって示されるように、指示に従う。これらの結果は,人間の監督を伴わない自己改善モデルの可能性が強く示唆された。

関連論文リスト

Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文参考訳（メタデータ） (2025-12-02T20:52:19Z)
Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future [38.1810626252963]
自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
論文参考訳（メタデータ） (2025-08-08T05:25:54Z)
Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization [35.807318314766974]
EVOLVEは、好みのトレーニングと自己修正データ収集を統合する新しいフレームワークである。 GSM8KやMATHのような数学的推論タスクのパフォーマンスを継続的に向上させる。
論文参考訳（メタデータ） (2025-02-08T15:21:55Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文参考訳（メタデータ） (2024-09-02T04:14:13Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Teaching Language Models to Self-Improve by Learning from Language Feedback [40.649677201161744]
本稿では、モデルフィードバックをアライメントに活用するSRT(Self-Refinement Tuning)を提案する。 SRTはベース言語モデル(例えばTulu2)を使用して、より高度なモデルによって批判され洗練される初期応答を生成する。 SRTはさらに、自己生成したフィードバックと改善から学び、モデルの改善を促進するフィードバックループを作成することで、モデルを最適化する。
論文参考訳（メタデータ） (2024-06-11T11:20:05Z)
Self-Rewarding Language Models [105.6830788170348]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文参考訳（メタデータ） (2024-01-18T14:43:47Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文参考訳（メタデータ） (2023-10-28T11:22:22Z)
SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。 LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文参考訳（メタデータ） (2023-10-01T00:52:24Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。