論文の概要: UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2508.09724v1
- Date: Wed, 13 Aug 2025 11:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.870878
- Title: UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge
- Title(参考訳): UDA:Pair-wise LLM-as-a-Judgeのための教師なしのアライメント
- Authors: Yang Zhang, Cunxiang Wang, Lindong Wu, Wenbo Yu, Yidong Wang, Guangsheng Bao, Jie Tang,
- Abstract要約: 本研究では,エロ評価システムを動的に調整することで,不一致を解消する枠組みであるUDAを提案する。
UDAは、すべての裁判官のエロ軌道間の分散を最小限にすることを目的として、完全に教師なしの方法で運営されている。
実験の結果、UDA は Judge の標準偏差を 63.4% まで減少させ、人間の判断との平均的相関を 24.7% 向上させることがわかった。
- 参考スコア(独自算出の注目度): 23.497453639857852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pairwise evaluation of Large Language Models (LLMs) is a common paradigm, but it is prone to preference bias, where judges systematically favor certain outputs, such as their own. This bias leads to inconsistent and skewed rankings across different judges. To address this, we first empirically demonstrate significant and heterogeneous biases in cross-model evaluations. We then propose UDA (Unsupervised Debiasing Alignment), a framework that reduces inter-judge disagreement by dynamically adjusting the Elo rating system. For each pairwise comparison, a compact neural network learns to adaptively set the K-factor and refine win probabilities. Crucially, UDA operates in a fully unsupervised manner, guided solely by the objective of minimizing the dispersion among the Elo trajectories of all judges. This forces an alignment towards a collective consensus, which serves as an unsupervised proxy for a more stable and reproducible evaluation. In addition, we provide theoretical motivation demonstrating how alignment towards a consensus can reduce aggregate system bias. Experiments show that UDA significantly reduces the inter-judge rating standard deviation by up to 63.4% and improves the average correlation with human judgments by 24.7%. Notably, UDA elevates the performance of poorly performing judges to achieve parity with high-quality ones, fostering a more robust and reliable evaluation ecosystem. Code and data are available at https://anonymous.4open.science/r/62AB93CD-23B4.
- Abstract(参考訳): LLM(Large Language Models)のペアワイズ評価は共通のパラダイムであるが、審査員が自分自身などの特定の出力を体系的に優先する傾向にある。
このバイアスは、異なる審査員の間で矛盾し、歪んだランキングにつながる。
これを解決するために,我々はまず,クロスモデル評価において有意かつ異質なバイアスを経験的に示す。
そこで我々は,エロ格付けシステムを動的に調整することにより,予算間不一致を低減する枠組みであるUDA(Unsupervised Debiasing Alignment)を提案する。
各ペア比較において、コンパクトニューラルネットワークは、K因子を適応的に設定し、勝利確率を洗練する。
重要なことに、UDAは、すべての裁判官のエロ軌道間の分散を最小化することを目的として、完全に教師なしの方法で運営されている。
これにより、より安定して再現可能な評価のための教師なしのプロキシとして機能する集合的なコンセンサスへのアライメントが強まる。
さらに,コンセンサスに対するアライメントがシステムバイアスを減少させることを示す理論的動機付けも提供する。
実験の結果、UDA は Judge の標準偏差を 63.4% まで減少させ、人間の判断との平均的相関を 24.7% 向上させることがわかった。
特に、UDAは、パフォーマンスの悪い審査員のパフォーマンスを高めて、高品質な審査員と同等に達成し、より堅牢で信頼性の高い評価エコシステムを育みます。
コードとデータはhttps://anonymous.4open.science/r/62AB93CD-23B4で公開されている。
関連論文リスト
- CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。
特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Fairness in Ranking under Disparate Uncertainty [24.401219403555814]
我々は、基礎となる関連モデルの不確実性がオプション群間で異なる場合、ランク付けは不公平をもたらす可能性があると論じる。
ランク付けのための新しい公正基準として平等ランク付け(EOR)を提案する。
異なる不確実性が存在する場合でも、EORは関連する選択肢の中でグループワイドフェア・宝くじに対応していることを示す。
論文 参考訳(メタデータ) (2023-09-04T13:49:48Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Debiasing Neural Retrieval via In-batch Balancing Regularization [25.941718123899356]
我々は,nPRF上でのT-統計を有効活用し,公平性を向上させるために,識別可能なテキストトナー付きペアワイドランキングフェアネス(nPRF)を開発した。
nPRF を用いた手法は,ベースラインに比べてランク付け性能の低下が最小限に抑えられ,バイアスが大幅に低減される。
論文 参考訳(メタデータ) (2022-05-18T22:57:15Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z) - Fairness-aware Class Imbalanced Learning [57.45784950421179]
つぶやきの感情と職業分類のロングテール学習手法を評価する。
フェアネスを強制する手法により、マージンロスに基づくアプローチを拡張します。
論文 参考訳(メタデータ) (2021-09-21T22:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。