論文の概要: LLM Evaluators Recognize and Favor Their Own Generations
- arxiv url: http://arxiv.org/abs/2404.13076v1
- Date: Mon, 15 Apr 2024 16:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-28 11:16:37.578407
- Title: LLM Evaluators Recognize and Favor Their Own Generations
- Title(参考訳): LLM評価器は、自身の世代を認識し、評価する
- Authors: Arjun Panickssery, Samuel R. Bowman, Shi Feng,
- Abstract要約: 自己認識能力が自己評価に寄与するかどうかを検討する。
自己認識能力と自己参照バイアスの強さとの間には線形な相関関係が認められた。
我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。
- 参考スコア(独自算出の注目度): 33.672365386365236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evaluation using large language models (LLMs) has proven valuable not only in benchmarking but also methods like reward modeling, constitutional AI, and self-refinement. But new biases are introduced due to the same LLM acting as both the evaluator and the evaluatee. One such bias is self-preference, where an LLM evaluator scores its own outputs higher than others' while human annotators consider them of equal quality. But do LLMs actually recognize their own outputs when they give those texts higher scores, or is it just a coincidence? In this paper, we investigate if self-recognition capability contributes to self-preference. We discover that, out of the box, LLMs such as GPT-4 and Llama 2 have non-trivial accuracy at distinguishing themselves from other LLMs and humans. By fine-tuning LLMs, we discover a linear correlation between self-recognition capability and the strength of self-preference bias; using controlled experiments, we show that the causal explanation resists straightforward confounders. We discuss how self-recognition can interfere with unbiased evaluations and AI safety more generally.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた自己評価は、ベンチマークだけでなく、報酬モデリング、立憲AI、自己修正といった手法にも価値があることが証明されている。
しかし,LLMが評価器と評価器の両方に作用するため,新たなバイアスがもたらされる。
そのようなバイアスの1つは自己選好であり、LLM評価器は出力を他よりも高く評価する一方、人間のアノテータはそれらが同等の品質であるとみなす。
しかし、LLMはテキストにより高いスコアを与えるとき、実際に自分のアウトプットを認識しているのだろうか?
本稿では,自己認識能力が自己評価に寄与するかどうかを検討する。
GPT-4 や Llama 2 のような LLM は他の LLM や人間と区別する精度が低いことが判明した。
LLMを微調整することにより、自己認識能力と自己参照バイアスの強さの線形相関が発見され、制御された実験により、因果説明は簡単な共同創設者に抵抗することを示す。
我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。
関連論文リスト
- Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models [79.5116305401044]
セルフフィードバックは、特定のタスクにおいて大きな言語モデル(LLM)を改善し、他のタスクを悪化させる。
近年の研究では、自己フィードバックは特定のタスクにおいて大きな言語モデル(LLM)を改善する一方で、他のタスクを悪化させることが示されている。
本稿は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via
Self-Evaluation [75.01017649868614]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Benchmarking Cognitive Biases in Large Language Models as Evaluators [17.850224207182062]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。
評価器としてのLCMの認知バイアスベンチマーク(CoBBLEr)を導入したランキングアウトプットの品質を評価する。
LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文 参考訳(メタデータ) (2023-09-29T06:53:10Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。