論文の概要: Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs
- arxiv url: http://arxiv.org/abs/2406.07791v4
- Date: Fri, 27 Sep 2024 18:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:37.631206
- Title: Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs
- Title(参考訳): 審査員の判断:LLMによるペアワイズ比較評価における位置バイアスの体系的調査
- Authors: Lin Shi, Chiyu Ma, Wenhua Liang, Weicheng Ma, Soroush Vosoughi,
- Abstract要約: 本研究は, 対比較における位置バイアスを検討するための体系的枠組みを提案する。
MTBenchとDevBenchにまたがる12のLLM審査員による実験を行い,22のタスクと約40のソリューション生成モデルについて検討した。
以上の結果から, 有能なLLM裁判官の位置バイアスは, ランダムな確率や, 有意な判断や課題の違いによるものではないことが確認された。
- 参考スコア(独自算出の注目度): 25.300569728792887
- License:
- Abstract: LLM-as-a-Judge presents a promising alternative to human evaluators across various tasks, but inherent biases, especially position bias - a tendency to favor solutions based on their position in the prompt - have compromised its effectiveness. Our study introduces a systematic framework to examine position bias in pairwise comparisons, focusing on repetition stability, position consistency, and preference fairness. This research significantly contributes to the field by introducing new concepts for understanding position bias and providing a multi-dimensional framework for evaluations. We conducted experiments with 12 LLM judges across MTBench and DevBench, covering 22 tasks and approximately 40 solution-generating models - candidates, resulting in over 100,000 evaluation instances. Our findings confirm that position bias in capable LLM judges is not due to random chances, along with notable variations observed across judges and tasks. Moreover, position bias is weakly influenced by the length of prompt components but significantly impacted by the quality gap between solutions. These insights can help optimize judge model selections, improve benchmark design, and inform future research on debiasing strategies, ultimately enhancing the reliability of LLM judges.
- Abstract(参考訳): LLM-as-a-Judgeは、様々なタスクにまたがる人間の評価に対する有望な代替手段を示すが、固有のバイアス、特に位置バイアスは、プロンプトにおける彼らの位置に基づく解決策を好む傾向があり、その効果を損なっている。
本研究は, 反復安定性, 位置整合性, 嗜好公平性に着目した, 対比較における位置バイアスの体系的枠組みを提案する。
本研究は,位置バイアスを理解するための新しい概念を導入し,評価のための多次元フレームワークを提供することによって,この分野に大きく貢献する。
MTBenchとDevBenchの12名のLLM審査員を対象に,22のタスクと約40のソリューション生成モデルを対象とし,10,000以上の評価結果を得た。
以上の結果から, 有能なLLM裁判官の位置バイアスは, ランダムな確率や, 有意な判断や課題の違いによるものではないことが確認された。
さらに, 位置バイアスは, プロンプト成分の長さに弱い影響を受けるが, 溶液間の品質差に大きく影響される。
これらの洞察は、判断モデルの選択を最適化し、ベンチマーク設計を改善し、デバイアスング戦略に関する将来の研究を通知し、最終的にLLM裁判官の信頼性を高めるのに役立つ。
関連論文リスト
- CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
因果的注意は一般的に、モデルが遠方のコンテンツを好むのに対して、RoPEのような相対的な位置エンコーディングは近くのものを好む。
本研究では,異なる入力セグメント順序(例えばLM-as-a-judgeのオプション,QAの検索文書)によって生じる位置バイアスを,TRAINING-FREE ZERO-SHOT方式で推定する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
審査員として機能する様々な大規模言語モデル(LLM)の性能について検討する。
LLMの客観的知識推論のベンチマークとしてTriviaQAを利用する。
Llama-370B と GPT-4 Turbo はどちらも人間に優れた整合性があることが判明した。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Fair Enough: Standardizing Evaluation and Model Selection for Fairness
Research in NLP [64.45845091719002]
現代のNLPシステムは様々なバイアスを示しており、モデル偏見に関する文献が増えている。
本稿では,その現状を解明し,公正学習における意味ある進歩の道筋を立案することを目的とする。
論文 参考訳(メタデータ) (2023-02-11T14:54:00Z) - Fairness and Explainability: Bridging the Gap Towards Fair Model
Explanations [12.248793742165278]
我々は、説明に基づく手続き指向公正の新たな視点を提示することにより、公正性と説明可能性のギャップを埋める。
本稿では,複数の目的を同時に達成する包括的公正性アルゴリズム (CFA) を提案する。
論文 参考訳(メタデータ) (2022-12-07T18:35:54Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。