論文の概要: Am I More Pointwise or Pairwise? Revealing Position Bias in Rubric-Based LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2602.02219v1
- Date: Mon, 02 Feb 2026 15:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.251022
- Title: Am I More Pointwise or Pairwise? Revealing Position Bias in Rubric-Based LLM-as-a-Judge
- Title(参考訳): 私がポイントワイズか、それともペアワイズか? : ゴム系LCM-as-a-Judgeにおける位置バイアスの発見
- Authors: Yuzheng Xu, Tosho Hirasawa, Tadashi Kozuno, Yoshitaka Ushiku,
- Abstract要約: ルーブリックに基づく評価は、暗黙的に複数の選択設定に似ており、したがって位置バイアスを有することを示す。
そこで我々は,各スコアオプションを均等に配置するバランスの取れた置換戦略を提案する。
- 参考スコア(独自算出の注目度): 17.255487260595565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now widely used to evaluate the quality of text, a field commonly referred to as LLM-as-a-judge. While prior works mainly focus on point-wise and pair-wise evaluation paradigms. Rubric-based evaluation, where LLMs select a score from multiple rubrics, has received less analysis. In this work, we show that rubric-based evaluation implicitly resembles a multi-choice setting and therefore has position bias: LLMs prefer score options appearing at specific positions in the rubric list. Through controlled experiments across multiple models and datasets, we demonstrate consistent position bias. To mitigate this bias, we propose a balanced permutation strategy that evenly distributes each score option across positions. We show that aggregating scores across balanced permutations not only reveals latent position bias, but also improves correlation between the LLM-as-a-Judge and human. Our results suggest that rubric-based LLM-as-a-Judge is not inherently point-wise and that simple permutation-based calibration can substantially improve its reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLM-as-a-judgeと呼ばれる分野であるテキストの品質を評価するために広く使われている。
従来の作業は主にポイントワイドとペアワイド評価のパラダイムに重点を置いています。
LLMが複数のルーブからスコアを選択するルーブリックに基づく評価は、より少ない分析結果を得た。
本研究は,ルーブリックに基づく評価が複数選択設定と暗黙的に類似しており,位置バイアスがあることを示す。
複数のモデルとデータセットにまたがる制御された実験を通して、一貫した位置バイアスを示す。
このバイアスを軽減するために、各スコアオプションを均等に配置するバランスの取れた置換戦略を提案する。
バランスの取れた置換点間でのスコアの集約は、潜在位置バイアスを呈するだけでなく、LLM-as-a-Judgeと人間との相関も改善することを示した。
以上の結果から,ルーリック系LCM-as-a-Judgeは本質的にポイントワイドではなく,単純な置換型キャリブレーションにより信頼性が大幅に向上することが示唆された。
関連論文リスト
- Exploring the Effects of Alignment on Numerical Bias in Large Language Models [14.918747967803734]
大規模言語モデル(LLM)を評価指標として利用する「LLM-as-a-judge」は,多くの評価課題において有効であることが証明されている。
本研究では,評価器における数値バイアスの原因について検討する。
論文 参考訳(メタデータ) (2026-01-23T04:45:35Z) - Adaptive Repetition for Mitigating Position Bias in LLM-Based Ranking [12.134014941104613]
候補項目の順序は、モデルの最終的な決定に影響を与える可能性がある。
LLMのプロンプトにおけるアイテム位置に対するこの感度は、位置バイアスとして知られている。
本稿では,各インスタンスに必要な反復回数を適応的に決定する動的早期ストッピング手法を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:54:44Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。