論文の概要: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
- arxiv url: http://arxiv.org/abs/2508.21164v3
- Date: Thu, 09 Oct 2025 20:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.093554
- Title: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
- Title(参考訳): 大規模言語モデルにおけるラベル誘発バイアスの自己評価と相互評価の定量化
- Authors: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush,
- Abstract要約: 大規模言語モデル (LLM) は、テキスト品質の評価器としてますます多くデプロイされている。
本研究では,ChatGPT,Gemini,Claudeの3つのLLMにおける自己モデルと相互モデルの評価の系統的バイアスについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
- Abstract(参考訳): 大規模言語モデル (LLM) は、テキスト品質の評価器としてますます多くデプロイされているが、それらの判断の妥当性は未解明のままである。
本研究では,ChatGPT,Gemini,Claudeの3つのLLMにおける自己モデルと相互モデルの評価の系統的バイアスについて検討した。
我々は,各モデルで書かれたブログ記事を4つのラベル付け条件下で3つのモデルで評価する制御実験を設計した。
評価は3次元にわたる全体的選好投票と粒状品質評価の両方を用いており、コヒーレンス、インフォーマティヴネス、簡潔さは、すべてのスコアが直接比較のために正規化されている。
以上より,「クロド」ラベルは実際の著者によらず一貫して上昇し,「ジェニーニ」ラベルは体系的に低下した。
偽の帰属はしばしば優先順位を逆転させ、投票結果に最大50ポイント、品質評価に最大12ポイントのシフトをもたらした。
特に、ジェミニは真のレーベルの下で厳しい自己非推奨を示し、クロードはより厳格な自己選好を示した。
これらの結果から, 知覚モデル同一性は, コンテンツ品質によらず, 高い評価ときめ細かい品質評価の両方を実質的に歪ませることが可能であることが示唆された。
本研究は, LLM-as-judgeパラダイムの信頼性に挑戦し, 自動テキスト評価とLCMベンチマークにおける公平性と妥当性を確保するために, ブラインド評価プロトコルと多種多様な多モデル検証フレームワークの重要要件を明らかにした。
関連論文リスト
- Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems [32.83708359216193]
大規模言語モデル(LLM)は、コミュニケーションシステムにおけるコンテンツの品質を自律的に評価するために、ますます使われている。
本稿では,2つのLLM-as-a-judgeモデルにおける判定バイアスをポイントワイド評価条件下で系統的に検討する。
我々は,実践的なコミュニケーションシナリオにおいて,公平かつ信頼性の高いAIを確保するための4つの潜在的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-10-14T12:52:29Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge [17.40713507922006]
大規模言語モデル(LLM)は、他の出力の迅速かつ信頼性の高い評価を提供する裁判官として機能する。
LLMは、自己バイアス(self-bias)として知られる、過度に好ましい評価を自身のアウトプットに体系的に割り当てる。
本稿では,自己バイアスを特定・推定できる仮定を明示的に定式化する統計的枠組みを提案する。
論文 参考訳(メタデータ) (2025-08-08T21:22:12Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - The Tile: A 2D Map of Ranking Scores for Two-Class Classification [10.89980029564174]
2クラス分類器のための1つの2次元マップにおいて、ランキングスコアの無限度を整理する新しい多目的ツールTileを提案する。
本研究では,前者の影響やROC空間との対応など,基礎となるランキングスコアの特性について検討する。
論文 参考訳(メタデータ) (2024-12-05T16:27:59Z) - Reducing Biases in Record Matching Through Scores Calibration [1.5530839016602822]
スコアバイアスの測定と低減のためのしきい値に依存しないフレームワークを提案する。
基準しきい値に基づく基準値の下では公平に見えても,いくつかの最先端マッチング手法がかなりのスコアバイアスを示すことを示す。
本稿では,2つのポストプロセッシングスコアキャリブレーションアルゴリズムを導入する。第1のキャリブは,ワッサーシュタイン・バリセンタを用いてグループワイズスコアの分布を調整し,人口統計学的パーティを目標とする。
第2のカラリブは、ラベルに依存したバイアス、例えば平等な機会を減らそうと予測されたラベルの条件である。
論文 参考訳(メタデータ) (2024-11-03T21:01:40Z) - Online Multi-Label Classification under Noisy and Changing Label Distribution [9.17381554071824]
本稿では,Nuisy and Changing Label Distribution (NCLD) に基づくオンラインマルチラベル分類アルゴリズムを提案する。
NCLDへの頑健さは3つの新作の恩恵を受けるため,ラベルスコアとラベルランキングを高い精度で同時にモデル化することを目的としている。
論文 参考訳(メタデータ) (2024-10-03T11:16:43Z) - Memory Consistency Guided Divide-and-Conquer Learning for Generalized
Category Discovery [56.172872410834664]
一般カテゴリー発見(GCD)は、半教師付き学習のより現実的で挑戦的な設定に対処することを目的としている。
メモリ一貫性を誘導する分枝・分枝学習フレームワーク(MCDL)を提案する。
本手法は,画像認識の目に見えるクラスと見えないクラスの両方において,最先端のモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-24T09:39:45Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。