Fugu-MT 論文翻訳(概要): Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

論文の概要: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

arxiv url: http://arxiv.org/abs/2508.21164v3
Date: Thu, 09 Oct 2025 20:01:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 00:38:46.093554
Title: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
Title（参考訳）: 大規模言語モデルにおけるラベル誘発バイアスの自己評価と相互評価の定量化
Authors: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush,
Abstract要約: 大規模言語モデル (LLM) は、テキスト品質の評価器としてますます多くデプロイされている。本研究では,ChatGPT,Gemini,Claudeの3つのLLMにおける自己モデルと相互モデルの評価の系統的バイアスについて検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
Abstract（参考訳）: 大規模言語モデル (LLM) は、テキスト品質の評価器としてますます多くデプロイされているが、それらの判断の妥当性は未解明のままである。本研究では,ChatGPT,Gemini,Claudeの3つのLLMにおける自己モデルと相互モデルの評価の系統的バイアスについて検討した。我々は,各モデルで書かれたブログ記事を4つのラベル付け条件下で3つのモデルで評価する制御実験を設計した。評価は3次元にわたる全体的選好投票と粒状品質評価の両方を用いており、コヒーレンス、インフォーマティヴネス、簡潔さは、すべてのスコアが直接比較のために正規化されている。以上より,「クロド」ラベルは実際の著者によらず一貫して上昇し,「ジェニーニ」ラベルは体系的に低下した。偽の帰属はしばしば優先順位を逆転させ、投票結果に最大50ポイント、品質評価に最大12ポイントのシフトをもたらした。特に、ジェミニは真のレーベルの下で厳しい自己非推奨を示し、クロードはより厳格な自己選好を示した。これらの結果から, 知覚モデル同一性は, コンテンツ品質によらず, 高い評価ときめ細かい品質評価の両方を実質的に歪ませることが可能であることが示唆された。本研究は, LLM-as-judgeパラダイムの信頼性に挑戦し, 自動テキスト評価とLCMベンチマークにおける公平性と妥当性を確保するために, ブラインド評価プロトコルと多種多様な多モデル検証フレームワークの重要要件を明らかにした。

関連論文リスト

Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
The Tile: A 2D Map of Ranking Scores for Two-Class Classification [10.89980029564174]
2クラス分類器のための1つの2次元マップにおいて、ランキングスコアの無限度を整理する新しい多目的ツールTileを提案する。本研究では,前者の影響やROC空間との対応など,基礎となるランキングスコアの特性について検討する。
論文参考訳（メタデータ） (2024-12-05T16:27:59Z)
Reducing Biases in Record Matching Through Scores Calibration [1.5530839016602822]
スコアバイアスの測定と低減のためのしきい値に依存しないフレームワークを提案する。基準しきい値に基づく基準値の下では公平に見えても,いくつかの最先端マッチング手法がかなりのスコアバイアスを示すことを示す。本稿では,2つのポストプロセッシングスコアキャリブレーションアルゴリズムを導入する。第1のキャリブは,ワッサーシュタイン・バリセンタを用いてグループワイズスコアの分布を調整し,人口統計学的パーティを目標とする。第2のカラリブは、ラベルに依存したバイアス、例えば平等な機会を減らそうと予測されたラベルの条件である。
論文参考訳（メタデータ） (2024-11-03T21:01:40Z)
Online Multi-Label Classification under Noisy and Changing Label Distribution [9.17381554071824]
本稿では,Nuisy and Changing Label Distribution (NCLD) に基づくオンラインマルチラベル分類アルゴリズムを提案する。 NCLDへの頑健さは3つの新作の恩恵を受けるため,ラベルスコアとラベルランキングを高い精度で同時にモデル化することを目的としている。
論文参考訳（メタデータ） (2024-10-03T11:16:43Z)
Memory Consistency Guided Divide-and-Conquer Learning for Generalized Category Discovery [56.172872410834664]
一般カテゴリー発見(GCD)は、半教師付き学習のより現実的で挑戦的な設定に対処することを目的としている。メモリ一貫性を誘導する分枝・分枝学習フレームワーク(MCDL)を提案する。本手法は,画像認識の目に見えるクラスと見えないクラスの両方において,最先端のモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-01-24T09:39:45Z)
Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文参考訳（メタデータ） (2023-08-03T12:47:17Z)
Bridging the Gap between Model Explanations in Partially Annotated Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文参考訳（メタデータ） (2023-04-04T14:00:59Z)
Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文参考訳（メタデータ） (2020-07-01T04:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。