Fugu-MT 論文翻訳(概要): Benchmarking Cognitive Biases in Large Language Models as Evaluators

論文の概要: Benchmarking Cognitive Biases in Large Language Models as Evaluators

arxiv url: http://arxiv.org/abs/2309.17012v3
Date: Wed, 25 Sep 2024 16:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 10:12:15.627628
Title: Benchmarking Cognitive Biases in Large Language Models as Evaluators
Title（参考訳）: 評価指標としての大規模言語モデルにおける認知バイアスのベンチマーク
Authors: Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim, Dongyeop Kang,
Abstract要約: 大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。我々は,LLMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価対象として評価する。 LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
参考スコア（独自算出の注目度）: 16.845939677403287
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models are cognitively biased judges. Large Language Models (LLMs) have recently been shown to be effective as automatic evaluators with simple prompting and in-context learning. In this work, we assemble 15 LLMs of four different size ranges and evaluate their output responses by preference ranking from the other LLMs as evaluators, such as System Star is better than System Square. We then evaluate the quality of ranking outputs introducing the Cognitive Bias Benchmark for LLMs as Evaluators (CoBBLEr), a benchmark to measure six different cognitive biases in LLM evaluation outputs, such as the Egocentric bias where a model prefers to rank its own outputs highly in evaluation. We find that LLMs are biased text quality evaluators, exhibiting strong indications on our bias benchmark (average of 40% of comparisons across all models) within each of their evaluations that question their robustness as evaluators. Furthermore, we examine the correlation between human and machine preferences and calculate the average Rank-Biased Overlap (RBO) score to be 49.6%, indicating that machine preferences are misaligned with humans. According to our findings, LLMs may still be unable to be utilized for automatic annotation aligned with human preferences. Our project page is at: https://minnesotanlp.github.io/cobbler.
Abstract（参考訳）: 大規模言語モデルは認知的に偏見のある裁判官である。大規模言語モデル(LLM)は、最近、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。本研究では,4つの異なるサイズ範囲の15個のLLMを組み立て,システムスターがシステムスクエアよりも優れているような評価器として,他のLLMからの優先順位付けによる出力応答の評価を行う。次に、LCM評価出力の6つの異なる認知バイアスを測定するベンチマークであるCoBBLEr(CoBBLEr)として、LCMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価する。 LLMはテキスト品質評価器であり、評価器としての頑健性に疑問を呈する評価のそれぞれにおいて、バイアスベンチマーク(すべてのモデルで比較される平均40%)に強い指標を示す。さらに,人間と機械の嗜好の相関について検討し,平均ランクバイアスオーバーラップ(RBO)スコアを49.6%と算出し,機械選好が人間と不一致であることを示唆した。以上の結果から,LLMは人間の嗜好に沿った自動アノテーションには利用できない可能性が示唆された。私たちのプロジェクトページは以下の通りです。

関連論文リスト

Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-04T18:45:10Z)
Evaluating Scoring Bias in LLM-as-a-Judge [8.751901240110888]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。 LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文参考訳（メタデータ） (2025-06-27T15:25:23Z)
Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文参考訳（メタデータ） (2024-12-31T17:46:51Z)
Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文参考訳（メタデータ） (2024-11-20T11:19:35Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文参考訳（メタデータ） (2024-06-17T09:48:53Z)
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文参考訳（メタデータ） (2024-05-02T17:59:35Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文参考訳（メタデータ） (2023-07-06T04:05:44Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。