Fugu-MT 論文翻訳(概要): A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators

論文の概要: A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators

arxiv url: http://arxiv.org/abs/2312.15407v2
Date: Sat, 20 Jan 2024 06:26:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 19:41:33.329941
Title: A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators
Title（参考訳）: 自動対話評価器としての大規模言語モデルの有効性に関する包括的分析
Authors: Chen Zhang, Luis Fernando D'Haro, Yiming Chen, Malu Zhang, Haizhou Li
Abstract要約: 大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
参考スコア（独自算出の注目度）: 46.939611070781794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic evaluation is an integral aspect of dialogue system research. The traditional reference-based NLG metrics are generally found to be unsuitable for dialogue assessment. Consequently, recent studies have suggested various unique, reference-free neural metrics that better align with human evaluations. Notably among them, large language models (LLMs), particularly the instruction-tuned variants like ChatGPT, are shown to be promising substitutes for human judges. Yet, existing works on utilizing LLMs for automatic dialogue evaluation are limited in their scope in terms of the number of meta-evaluation datasets, mode of evaluation, coverage of LLMs, etc. Hence, it remains inconclusive how effective these LLMs are. To this end, we conduct a comprehensive study on the application of LLMs for automatic dialogue evaluation. Specifically, we analyze the multi-dimensional evaluation capability of 30 recently emerged LLMs at both turn and dialogue levels, using a comprehensive set of 12 meta-evaluation datasets. Additionally, we probe the robustness of the LLMs in handling various adversarial perturbations at both turn and dialogue levels. Finally, we explore how model-level and dimension-level ensembles impact the evaluation performance. All resources are available at https://github.com/e0397123/comp-analysis.
Abstract（参考訳）: 自動評価は対話システム研究の不可欠な側面である。従来の基準ベースのNLGメトリクスは、一般的に対話評価には適さない。その結果、最近の研究では、人間の評価によく適合する様々なユニークな基準のない神経メトリクスが示唆されている。特に大きな言語モデル(LLM)、特にChatGPTのような命令調整型は、人間の裁判官にとって有望な代用であることが示されている。しかし, メタ評価データセットの数, 評価モード, LLMのカバレッジなどの観点から, LLMを自動対話評価に活用する作業は, 範囲内で限定されている。したがって、これらのLSMがどれほど効果的かは決定的ではない。この目的のために,自動対話評価におけるLLMの適用に関する総合的研究を行った。具体的には,最近出現した30個のLCMの多次元評価能力を,12個のメタ評価データセットを用いて解析する。さらに,旋回と対話の両レベルで様々な対向摂動を扱う上で,LLMの頑健性について検討する。最後に,モデルレベルおよび次元レベルのアンサンブルが評価性能に与える影響について検討する。すべてのリソースはhttps://github.com/e0397123/comp-analysisで入手できる。

関連論文リスト

Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation [8.672875654352689]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。本稿では,現在の評価ベンチマークを批判的に検討し,従来の応答生成器の使用と品質面が,現代のチャットボットの機能を正確に反映できないことを強調した。
論文参考訳（メタデータ） (2024-07-04T11:14:47Z)
Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T06:19:47Z)
Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue [1.8652965834931452]
本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。我々は,異なる対話型に適用する場合に,異なるLLM適応手法を広範囲に分析する。
論文参考訳（メタデータ） (2024-06-10T15:52:49Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文参考訳（メタデータ） (2023-08-31T15:19:28Z)
LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文参考訳（メタデータ） (2023-05-23T05:57:09Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。