論文の概要: Are LLM-Judges Robust to Expressions of Uncertainty? Investigating the effect of Epistemic Markers on LLM-based Evaluation
- arxiv url: http://arxiv.org/abs/2410.20774v1
- Date: Mon, 28 Oct 2024 06:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:31.195642
- Title: Are LLM-Judges Robust to Expressions of Uncertainty? Investigating the effect of Epistemic Markers on LLM-based Evaluation
- Title(参考訳): LLM-Judges Robust to Expressions of Uncertainty? : てんかんマーカーのLLM評価に及ぼす影響の検討
- Authors: Dongryeol Lee, Yerin Hwang, Yongil Kim, Joonsuk Park, Kyomin Jung,
- Abstract要約: 正直なところ、大きな言語モデル(LLM)を訓練する努力が増えている。
EMBERはLLM-judgesの頑健性を評価するためのベンチマークである。
EMBER を用いた評価の結果,GPT-4o を含む全ての LLM-judge 検査では,上皮マーカーの存在が顕著に欠如していることが判明した。
- 参考スコア(独自算出の注目度): 18.571640537566836
- License:
- Abstract: In line with the principle of honesty, there has been a growing effort to train large language models (LLMs) to generate outputs containing epistemic markers. However, evaluation in the presence of epistemic markers has been largely overlooked, raising a critical question: Could the use of epistemic markers in LLM-generated outputs lead to unintended negative consequences? To address this, we present EMBER, a benchmark designed to assess the robustness of LLM-judges to epistemic markers in both single and pairwise evaluation settings. Our findings, based on evaluations using EMBER, reveal that all tested LLM-judges, including GPT-4o, show a notable lack of robustness in the presence of epistemic markers. Specifically, we observe a negative bias toward epistemic markers, with a stronger bias against markers expressing uncertainty. This suggests that LLM-judges are influenced by the presence of these markers and do not focus solely on the correctness of the content.
- Abstract(参考訳): 正直さの原則に従って、認識マーカーを含む出力を生成するために、大きな言語モデル(LLM)を訓練する努力が増えている。
しかし、てんかんマーカーの有無の評価は概ね見過ごされ、批判的な疑問が持ち上がった: LLM出力におけるてんかんマーカーの使用は意図しない負の結果をもたらすか?
EMBERは,LLM-judgesのロバスト性を評価するためのベンチマークである。
EMBER を用いた評価の結果,GPT-4o を含む全ての LLM-judge 検査では,上皮マーカーの存在が顕著に欠如していることが判明した。
具体的には, てんかんマーカーに対する負のバイアスを観察し, 不確実性を示すマーカーに対する強いバイアスを呈する。
このことから, LLM-judges はこれらのマーカーの存在に影響され, 内容の正しさのみに焦点をあてるものではないことが示唆された。
関連論文リスト
- Self-Preference Bias in LLM-as-a-Judge [13.880151307013321]
大規模言語モデル(LLM)における自己参照バイアスを測定するための新しい指標を提案する。
以上の結果から, GPT-4は自己選好バイアスがかなり高いことが示唆された。
このことは、偏見の本質は難易度にあることを示唆し、自己選好バイアスは LLM がより親しみやすいテキストを好むため存在することを示唆している。
論文 参考訳(メタデータ) (2024-10-29T07:42:18Z) - Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores [2.886479348067378]
我々は、大きな言語モデルの能力をテストするために設計されたベンチマークを使用して、基準方向を推論する。
本稿では,ベンチマークスコアの不確かさを定量的に定量化するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:04:28Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Navigating the Grey Area: How Expressions of Uncertainty and
Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。
その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。
これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文 参考訳(メタデータ) (2023-02-26T23:46:29Z) - Unmasking the Mask -- Evaluating Social Biases in Masked Language Models [28.378270372391498]
Masked Language Models(MLM)は、テキストエンコーダとして使用すると、多数の下流NLPタスクで優れたパフォーマンスを発揮します。
テストケースにおける全てのトークンを予測するバイアス評価尺度であるAll Unmasked Likelihood (AUL)を提案する。
また,注意重み付きALU(AULA)を文中のトークンの重要性に基づいて評価する手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T14:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。