論文の概要: Self-Preference Bias in LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2410.21819v1
- Date: Tue, 29 Oct 2024 07:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:01.920408
- Title: Self-Preference Bias in LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeにおける自己選好バイアス
- Authors: Koki Wataoka, Tsubasa Takahashi, Ryokan Ri,
- Abstract要約: 大規模言語モデル(LLM)における自己参照バイアスを測定するための新しい指標を提案する。
以上の結果から, GPT-4は自己選好バイアスがかなり高いことが示唆された。
このことは、偏見の本質は難易度にあることを示唆し、自己選好バイアスは LLM がより親しみやすいテキストを好むため存在することを示唆している。
- 参考スコア(独自算出の注目度): 13.880151307013321
- License:
- Abstract: Automated evaluation leveraging large language models (LLMs), commonly referred to as LLM evaluators or LLM-as-a-judge, has been widely used in measuring the performance of dialogue systems. However, the self-preference bias in LLMs has posed significant risks, including promoting specific styles or policies intrinsic to the LLMs. Despite the importance of this issue, there is a lack of established methods to measure the self-preference bias quantitatively, and its underlying causes are poorly understood. In this paper, we introduce a novel quantitative metric to measure the self-preference bias. Our experimental results demonstrate that GPT-4 exhibits a significant degree of self-preference bias. To explore the causes, we hypothesize that LLMs may favor outputs that are more familiar to them, as indicated by lower perplexity. We analyze the relationship between LLM evaluations and the perplexities of outputs. Our findings reveal that LLMs assign significantly higher evaluations to outputs with lower perplexity than human evaluators, regardless of whether the outputs were self-generated. This suggests that the essence of the bias lies in perplexity and that the self-preference bias exists because LLMs prefer texts more familiar to them.
- Abstract(参考訳): LLM評価器(LLM-as-a-judge)と呼ばれる大型言語モデル(LLM)を利用した自動評価は,対話システムの性能測定に広く用いられている。
しかし、LSMの自己選好バイアスは、LSMに固有の特定のスタイルやポリシーの促進など、重大なリスクをもたらしている。
この問題の重要性にもかかわらず、自己参照バイアスを定量的に測定する確立された方法が欠如しており、その根本原因はよく分かっていない。
本稿では,自己選好バイアスを測定するための新しい定量的指標を提案する。
実験の結果, GPT-4は自己選好バイアスがかなり高いことがわかった。
これらの原因を探究するため, LLM はそれらに慣れ親しんだ出力を, 低いパープレキシティによって示されるように好むと仮定した。
LLM評価と出力の難易度の関係を解析する。
これらの結果から, LLMは, 自己生成の有無にかかわらず, 人間の評価値よりも低いパープレキシティを有する出力に対して有意に高い評価を付与することが明らかとなった。
このことは、偏見の本質は難易度にあることを示唆し、自己選好バイアスは LLM がより親しみやすいテキストを好むため存在することを示唆している。
関連論文リスト
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - LLM Evaluators Recognize and Favor Their Own Generations [33.672365386365236]
自己認識能力が自己評価に寄与するかどうかを検討する。
自己認識能力と自己参照バイアスの強さとの間には線形な相関関係が認められた。
我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。
論文 参考訳(メタデータ) (2024-04-15T16:49:59Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。