論文の概要: Improve LLM-as-a-Judge Ability as a General Ability
- arxiv url: http://arxiv.org/abs/2502.11689v1
- Date: Mon, 17 Feb 2025 11:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:24.662572
- Title: Improve LLM-as-a-Judge Ability as a General Ability
- Title(参考訳): 総合能力としてのLCM-as-a-Judge能力の向上
- Authors: Jiachen Yu, Shaoning Sun, Xiaohui Hu, Jiaxu Yan, Kaidong Yu, Xuelong Li,
- Abstract要約: 大規模言語モデル(LLM)は様々なシナリオで応答を評価し、正確な選好信号を提供する。
近年の研究では、LLMをジェネレーティブ・ジャッジ(ジェネレーティブ・ジャッジ)として訓練する多くの方法が提起されているが、そのほとんどはデータ消費か精度の欠如である。
本研究では、教師付き微調整(SFT)ウォームアップと直接選好最適化(DPO)強化を含む2段階の訓練手法を実装した。
- 参考スコア(独自算出の注目度): 40.2210529561692
- License:
- Abstract: LLM-as-a-Judge leverages the generative and reasoning capabilities of large language models (LLMs) to evaluate LLM responses across diverse scenarios, providing accurate preference signals. This approach plays a vital role in aligning LLMs with human values, ensuring ethical and reliable AI outputs that align with societal norms. Recent studies have raised many methods to train LLM as generative judges, but most of them are data consuming or lack accuracy, and only focus on LLM's judge ability. In this work, we regard judge ability as a general ability of LLM and implement a two-stage training approach, comprising supervised fine-tuning (SFT) warm-up and direct preference optimization (DPO) enhancement, to achieve judge style adaptation and improve judgment accuracy. Additionally, we introduce an efficient data synthesis method to generate judgmental content. Experimental results demonstrate that our approach, utilizing only about 2% to 40% of the data required by other methods, achieves SOTA performance on RewardBench. Furthermore, our training method enhances the general capabilities of the model by constructing complicated judge task, and the judge signals provided by our model have significantly enhanced the downstream DPO training performance of our internal models in our test to optimize policy model with Judge Model. We also open-source our model weights and training data to facilitate further research.
- Abstract(参考訳): LLM-as-a-Judgeは、大規模言語モデル(LLM)の生成と推論機能を活用し、様々なシナリオでLSM応答を評価し、正確な選好信号を提供する。
このアプローチは、LLMを人間の価値観と整合させ、社会的規範と整合した倫理的で信頼性の高いAI出力を確保する上で重要な役割を担います。
近年の研究では、LLMを生成的判断者として訓練する多くの方法が提起されているが、そのほとんどはデータの消費や精度の欠如であり、LLMの判断能力にのみ焦点を当てている。
本研究では,判断能力をLCMの汎用能力とみなし,教師付き微調整(SFT)ウォームアップと直接選好最適化(DPO)の強化を含む2段階の訓練手法を実装し,判定スタイルの適応と判定精度の向上を図る。
さらに,判断内容を生成するための効率的なデータ合成手法を提案する。
実験の結果,他の手法で要求されるデータの約2%から40%しか利用していない手法が,RewardBench上でのSOTA性能を実現することがわかった。
さらに, 複雑な判断タスクを構築することで, モデルの汎用性を向上し, 内部モデルの下流DPO訓練性能を大幅に向上させ, 判断モデルによるポリシーモデルの最適化を実現した。
また、さらなる研究を促進するために、モデルのウェイトとトレーニングデータをオープンソースにしています。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs [6.689848416609951]
大規模言語モデル(LLM)における未学習と公平性の相互作用について検討する。
我々は、SISAとして知られる人気のある非学習フレームワークに焦点を当て、非結合シャードで訓練されたモデルのアンサンブルを作成する。
SISAによるアンサンブルモデルに対する後処理バイアス軽減手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:44:47Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。