論文の概要: Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems
- arxiv url: http://arxiv.org/abs/2510.12462v1
- Date: Tue, 14 Oct 2025 12:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.316839
- Title: Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems
- Title(参考訳): 通信システムにおけるLCM-as-a-judgeバイアスの評価と緩和
- Authors: Jiaxin Gao, Chen Chen, Yanwen Jia, Xueluan Gong, Kwok-Yan Lam, Qian Wang,
- Abstract要約: 大規模言語モデル(LLM)は、コミュニケーションシステムにおけるコンテンツの品質を自律的に評価するために、ますます使われている。
本稿では,2つのLLM-as-a-judgeモデルにおける判定バイアスをポイントワイド評価条件下で系統的に検討する。
我々は,実践的なコミュニケーションシナリオにおいて,公平かつ信頼性の高いAIを確保するための4つの潜在的な緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 32.83708359216193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being used to autonomously evaluate the quality of content in communication systems, e.g., to assess responses in telecom customer support chatbots. However, the impartiality of these AI "judges" is not guaranteed, and any biases in their evaluation criteria could skew outcomes and undermine user trust. In this paper, we systematically investigate judgment biases in two LLM-as-a-judge models (i.e., GPT-Judge and JudgeLM) under the point-wise scoring setting, encompassing 11 types of biases that cover both implicit and explicit forms. We observed that state-of-the-art LLM judges demonstrate robustness to biased inputs, generally assigning them lower scores than the corresponding clean samples. Providing a detailed scoring rubric further enhances this robustness. We further found that fine-tuning an LLM on high-scoring yet biased responses can significantly degrade its performance, highlighting the risk of training on biased data. We also discovered that the judged scores correlate with task difficulty: a challenging dataset like GPQA yields lower average scores, whereas an open-ended reasoning dataset (e.g., JudgeLM-val) sees higher average scores. Finally, we proposed four potential mitigation strategies to ensure fair and reliable AI judging in practical communication scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、通信システムにおけるコンテンツ品質を自律的に評価するために、例えば、テレコムのカスタマーサポートチャットボットにおける応答を評価するために、ますます使われてきている。
しかし、これらのAIの「判断」の不公平さは保証されておらず、評価基準のバイアスは結果を歪め、ユーザーの信頼を損なう可能性がある。
本稿では,2つのLCM-as-a-judgeモデル(GPT-Judge と JudgeLM)における判定バイアスを,暗黙的および明示的両方の形式をカバーする11種類のバイアスを含む点評価条件下で体系的に検討する。
現状のLLM審査員は, 偏りのある入力に対して頑健さを示し, 一般に, 対応するクリーンサンプルよりも低いスコアを割り当てている。
詳細なスコアリングルーブリックを提供することにより、この堅牢性をさらに強化する。
さらに、ハイスコアで偏りのある応答に対するLLMの微調整は、その性能を著しく低下させ、偏りのあるデータに対するトレーニングのリスクを浮き彫りにすることを示した。
GPQAのような挑戦的なデータセットでは平均スコアが低く、オープンな推論データセット(例えば、判断LM-val)では平均スコアが高かった。
最後に,実践的なコミュニケーションシナリオを判断し,公平で信頼性の高いAIを確保するための4つの潜在的な緩和戦略を提案する。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation [14.521056434373213]
大規模視覚言語モデル (LVLM) はテキスト画像のアライメントを判断するツールとして好まれている。
対人的視覚操作は、LVLM審査員が不当に膨らんだスコアを割り当てることを体系的に騙すことができるか?
敵対的な視覚操作は、LVLM審査員を体系的に騙して不当に膨らませたスコアを割り当てることができるか?
論文 参考訳(メタデータ) (2025-05-21T08:24:28Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。