Fugu-MT 論文翻訳(概要): LLM-based NLG Evaluation: Current Status and Challenges

論文の概要: LLM-based NLG Evaluation: Current Status and Challenges

arxiv url: http://arxiv.org/abs/2402.01383v2
Date: Mon, 26 Feb 2024 14:55:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 21:20:47.149782
Title: LLM-based NLG Evaluation: Current Status and Challenges
Title（参考訳）: LLMによるNLG評価の現状と課題
Authors: Mingqi Gao, Xinyu Hu, Jie Ruan, Xiao Pu, Xiaojun Wan
Abstract要約: 自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。 LLMに基づく各種自動評価手法が提案されている。
参考スコア（独自算出の注目度）: 41.69249290537395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating natural language generation (NLG) is a vital but challenging problem in artificial intelligence. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and references are far from satisfactory, and large language models (LLMs) such as ChatGPT have demonstrated great potential in NLG evaluation in recent years. Various automatic evaluation methods based on LLMs have been proposed, including metrics derived from LLMs, prompting LLMs, and fine-tuning LLMs with labeled evaluation data. In this survey, we first give a taxonomy of LLM-based NLG evaluation methods, and discuss their pros and cons, respectively. We also discuss human-LLM collaboration for NLG evaluation. Lastly, we discuss several open problems in this area and point out future research directions.
Abstract（参考訳）: 自然言語生成(NLG)を評価することは人工知能において不可欠だが難しい問題である。従来の評価基準では、システム出力と参照の間のコンテンツ(例えばn-gram)の重なりは満足のいくものではないが、chatgptのような大規模言語モデル(llm)は近年、nlgの評価において大きな可能性を秘めている。 LLMに基づく様々な自動評価手法が提案され、LLMから派生したメトリクス、LLMの促進、ラベル付き評価データによる微調整 LLM などが提案されている。本調査ではまず, LLM を用いた NLG 評価手法の分類について述べ, その長所と短所について考察する。また,NLG評価のための人間-LLMコラボレーションについても論じる。最後に,この領域におけるいくつかのオープンな問題について論じ,今後の研究の方向性を指摘する。

関連論文リスト

DHP Benchmark: Are LLMs Good NLG Evaluators? [42.16315294351651]
大規模言語モデル(LLM)は、自然言語生成(NLG)タスクにおいて、ますます評価役として機能している。 LLMのNLG評価能力を評価するために,階層摂動(DHP)ベンチマークフレームワークを提案する。このベンチマークでは、要約、ストーリーコンプリート、質問回答、翻訳の4つのNLGタスクをカバーして、6つの評価データセットを再確立しました。
論文参考訳（メタデータ） (2024-08-25T02:01:38Z)
Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models [7.529095331830944]
大規模言語モデル(LLM)を評価するための現在のベンチマークでは、コンテンツ制限の評価、不適切な更新、最適化ガイダンスの欠如などの問題がある。本稿では,LLMのベンチマーク評価評価のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-07-10T10:42:02Z)
Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。 Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文参考訳（メタデータ） (2024-06-26T14:04:29Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。 GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文参考訳（メタデータ） (2024-04-02T06:14:54Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。