Fugu-MT 論文翻訳(概要): Humans or LLMs as the Judge? A Study on Judgement Biases

論文の概要: Humans or LLMs as the Judge? A Study on Judgement Biases

arxiv url: http://arxiv.org/abs/2402.10669v2
Date: Tue, 20 Feb 2024 17:00:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 11:39:02.409865
Title: Humans or LLMs as the Judge? A Study on Judgement Biases
Title（参考訳）: 裁判官は人間かLLMか? 判断バイアスに関する一考察
Authors: Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang
Abstract要約: 本研究では, LLM と人間の判断に対する5種類のバイアスを調査するための新しい枠組みを提案する。我々は、人間とLLMの裁判官が様々な程度に摂動に弱いこと、そして最も最先端の裁判官でさえかなりの偏見を持っていることを示します。我々は,我々の研究が,頑健な評価システムの開発の緊急性だけでなく,摂動に対する人間とLLM-as-judgeの脆弱性のコミュニティに通知できることを願っている。
参考スコア（独自算出の注目度）: 18.312744464862583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adopting human and large language models (LLM) as judges (\textit{a.k.a} human- and LLM-as-a-judge) for evaluating the performance of existing LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential biases from human and LLM judges, questioning the reliability of the evaluation results. In this paper, we propose a novel framework for investigating 5 types of biases for LLM and human judges. We curate a dataset with 142 samples referring to the revised Bloom's Taxonomy and conduct thousands of human and LLM evaluations. Results show that human and LLM judges are vulnerable to perturbations to various degrees, and that even the most cutting-edge judges possess considerable biases. We further exploit their weakness and conduct attacks on LLM judges. We hope that our work can notify the community of the vulnerability of human- and LLM-as-a-judge against perturbations, as well as the urgency of developing robust evaluation systems.
Abstract（参考訳）: 既存のLLMの性能を評価するために,人・大規模言語モデル (LLM) を審査員 (\textit{a.k.a} human- and LLM-as-a-judge) として採用することが近年注目されている。それにもかかわらず、このアプローチは人間とLLM判事の潜在的なバイアスを同時に導入し、評価結果の信頼性を疑問視する。本稿では,LLMと人的判断に対する5種類のバイアスを調査するための新しい枠組みを提案する。我々は,修正されたブルームの分類に言及する142のサンプルのデータセットをキュレートし,何千もの人間およびllm評価を行う。その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最も最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。我々はその弱点をさらに活用し、LLM判事に対する攻撃を行う。我々は,我々の研究が,頑健な評価システムの開発の緊急性だけでなく,摂動に対する人間とLLM-as-judgeの脆弱性のコミュニティに通知できることを願っている。

関連論文リスト

Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation [14.521056434373213]
評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。 LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか? コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
論文参考訳（メタデータ） (2025-05-22T04:49:33Z)
LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations [29.031539043555362]
大規模言語モデル (LLM) は情報システムを評価するためにますます使われている。近年の研究では、LLMに基づく評価は人間の判断とよく一致することが示唆されている。本稿では,LCM評価者が誤って成功を示すシナリオについて検討する。
論文参考訳（メタデータ） (2025-04-27T02:14:21Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.55871325700294]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。
論文参考訳（メタデータ） (2024-11-25T17:28:44Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
Mitigating the Bias of Large Language Model Evaluation [30.67730115141905]
LLM-as-a-Judgeのバイアスに関する系統的研究を提案する。クローズドソース・ジャッジモデルでは、表面品質の重要性を緩和するためにキャリブレーションを適用する。オープンソース・ジャッジ・モデルでは, 対照的な学習によってバイアスを軽減し, 学習から逸脱するが, 表面品質が向上する負のサンプルをキュレートする。
論文参考訳（メタデータ） (2024-09-25T09:52:44Z)
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [10.091146498861333]
GPT-4のような商用の大規模言語モデル(LLM)は、近年、異なるアライメントアプローチの評価と比較に使われている。 LLM審査員の信頼性とアライメントを評価・比較・可視化する枠組みを開発した。
論文参考訳（メタデータ） (2024-08-23T11:49:01Z)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文参考訳（メタデータ） (2024-08-16T14:49:35Z)
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。 LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文参考訳（メタデータ） (2024-08-07T17:11:34Z)
LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文参考訳（メタデータ） (2024-06-26T14:56:13Z)
JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文参考訳（メタデータ） (2023-10-26T17:48:58Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。