論文の概要: Assistant-Guided Mitigation of Teacher Preference Bias in LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2505.19176v2
- Date: Wed, 04 Jun 2025 16:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:49.0353
- Title: Assistant-Guided Mitigation of Teacher Preference Bias in LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeにおける教師選好バイアスの補助ガイドによる緩和
- Authors: Zhuo Liu, Moxin Li, Xun Deng, Qifan Wang, Fuli Feng,
- Abstract要約: AGDe-Judgeは、トレーニングデータのラベルとフィードバックの両方から疎外するように設計されたフレームワークです。
AGDe-Judgeは、6つの評価ベンチマークで高いパフォーマンスを維持しながら、教師の嗜好バイアスを効果的に低減します。
- 参考スコア(独自算出の注目度): 49.269894675720835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge employs large language models (LLMs), such as GPT-4, to evaluate the quality of LLM-generated responses, gaining popularity for its cost-effectiveness and strong alignment with human evaluations. However, training proxy judge models using evaluation data generated by powerful teacher models introduces a critical yet previously overlooked issue: teacher preference bias, where the proxy judge model learns a biased preference for responses from the teacher model. To tackle this problem, we propose a novel setting that incorporates an additional assistant model, which is not biased toward the teacher model's responses, to complement the training data. Building on this setup, we introduce AGDe-Judge, a three-stage framework designed to debias from both the labels and feedbacks in the training data. Extensive experiments demonstrate that AGDe-Judge effectively reduces teacher preference bias while maintaining strong performance across six evaluation benchmarks. Code is available at https://github.com/Liuz233/AGDe-Judge.
- Abstract(参考訳): LLM-as-a-Judgeは、LPM生成応答の質を評価するために、GPT-4のような大規模言語モデル(LLM)を採用している。
しかし、強力な教師モデルによって生成された評価データを用いた訓練プロキシジャッジモデルでは、教師の嗜好バイアスという、教師モデルから回答に対する偏見を学習する重要な問題が発生している。
この問題に対処するために,教師モデルの反応に偏らない追加のアシスタントモデルを組み込んだ,学習データを補完する新しい設定を提案する。
このセットアップに基づいて、トレーニングデータ内のラベルとフィードバックの両方から逸脱するように設計された3段階のフレームワークであるAGDe-Judgeを紹介します。
AGDe-Judgeは、6つの評価ベンチマークで高いパフォーマンスを維持しながら、教師の嗜好バイアスを効果的に低減することを示した。
コードはhttps://github.com/Liuz233/AGDe-Judge.comから入手できる。
関連論文リスト
- Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。
我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。
2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文 参考訳(メタデータ) (2024-10-29T16:57:45Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Weighted KL-Divergence for Document Ranking Model Refinement [11.29398362479766]
本稿では,学生と教師モデルとの整合性を優先し,正と負の文書を適切に分離するKL発散項を再重み付けする。
本稿では,MS MARCO と BEIR データセットの損失関数の解析と評価を行い,その妥当性を実証する。
論文 参考訳(メタデータ) (2024-06-10T02:29:35Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。