Fugu-MT 論文翻訳(概要): Are LLM-based Evaluators Confusing NLG Quality Criteria?

論文の概要: Are LLM-based Evaluators Confusing NLG Quality Criteria?

arxiv url: http://arxiv.org/abs/2402.12055v1
Date: Mon, 19 Feb 2024 11:19:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 16:51:45.192520
Title: Are LLM-based Evaluators Confusing NLG Quality Criteria?
Title（参考訳）: LLMによるNLG品質基準の相違
Authors: Xinyu Hu, Mingqi Gao, Sen Hu, Yang Zhang, Yicheng Chen, Teng Xu, Xiaojun Wan
Abstract要約: 本研究では,従来の研究と異なる基準で,11の共通点を対象とした明確な階層分類システムを提案する。行動検査にインスパイアされた我々は、異なるLCMの評価行動のきめ細かい分析のために、18種類のアスペクトターゲット摂動攻撃を精巧に設計した。
参考スコア（独自算出の注目度）: 41.019305087508656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Some prior work has shown that LLMs perform well in NLG evaluation for different tasks. However, we discover that LLMs seem to confuse different evaluation criteria, which reduces their reliability. For further verification, we first consider avoiding issues of inconsistent conceptualization and vague expression in existing NLG quality criteria themselves. So we summarize a clear hierarchical classification system for 11 common aspects with corresponding different criteria from previous studies involved. Inspired by behavioral testing, we elaborately design 18 types of aspect-targeted perturbation attacks for fine-grained analysis of the evaluation behaviors of different LLMs. We also conduct human annotations beyond the guidance of the classification system to validate the impact of the perturbations. Our experimental results reveal confusion issues inherent in LLMs, as well as other noteworthy phenomena, and necessitate further research and improvements for LLM-based evaluation.
Abstract（参考訳）: いくつかの先行研究により、LCMは異なるタスクに対するNLG評価において良好に機能することが示されている。しかし,LLMは異なる評価基準を混乱させ,信頼性を低下させることがわかった。さらなる検証のために,まず,既存のnlg品質基準自体における一貫性のない概念化やあいまいな表現の問題を回避することを検討する。そこで本稿では,従来の研究と異なる基準で,11の共通側面の明確な階層分類システムを要約する。行動テストに触発された18種類のアスペクト標的摂動攻撃を詳細に設計し,異なるllmの評価行動のきめ細かい解析を行った。また,摂動の影響を検証するために,分類システムの指導を超えた人間のアノテーションも実施する。実験の結果,LSMに固有の混乱や,その他の注目すべき現象が明らかとなり,LCMによる評価のさらなる研究と改善が求められた。

関連論文リスト

Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文参考訳（メタデータ） (2026-01-17T20:32:18Z)
LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文参考訳（メタデータ） (2025-07-30T03:50:46Z)
No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。 LLMは様々なタスクにおける最先端のパフォーマンスを破っているが、トレーニングデータに存在する様々な形式のバイアスを反映していることが多い。物理特性から社会経済的カテゴリに至るまで,様々なバイアスをカバーできる代表的LCMを用いて,ベンチマークを統一的に評価する。
論文参考訳（メタデータ） (2025-03-15T03:58:14Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [10.091146498861333]
GPT-4のような商用の大規模言語モデル(LLM)は、近年、異なるアライメントアプローチの評価と比較に使われている。 LLM審査員の信頼性とアライメントを評価・比較・可視化する枠組みを開発した。
論文参考訳（メタデータ） (2024-08-23T11:49:01Z)
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文参考訳（メタデータ） (2024-07-15T06:12:17Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。