論文の概要: LLM-based NLG Evaluation: Current Status and Challenges
- arxiv url: http://arxiv.org/abs/2402.01383v2
- Date: Mon, 26 Feb 2024 14:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:20:47.149782
- Title: LLM-based NLG Evaluation: Current Status and Challenges
- Title(参考訳): LLMによるNLG評価の現状と課題
- Authors: Mingqi Gao, Xinyu Hu, Jie Ruan, Xiao Pu, Xiaojun Wan
- Abstract要約: 自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。
大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。
LLMに基づく各種自動評価手法が提案されている。
- 参考スコア(独自算出の注目度): 41.69249290537395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating natural language generation (NLG) is a vital but challenging
problem in artificial intelligence. Traditional evaluation metrics mainly
capturing content (e.g. n-gram) overlap between system outputs and references
are far from satisfactory, and large language models (LLMs) such as ChatGPT
have demonstrated great potential in NLG evaluation in recent years. Various
automatic evaluation methods based on LLMs have been proposed, including
metrics derived from LLMs, prompting LLMs, and fine-tuning LLMs with labeled
evaluation data. In this survey, we first give a taxonomy of LLM-based NLG
evaluation methods, and discuss their pros and cons, respectively. We also
discuss human-LLM collaboration for NLG evaluation. Lastly, we discuss several
open problems in this area and point out future research directions.
- Abstract(参考訳): 自然言語生成(NLG)を評価することは人工知能において不可欠だが難しい問題である。
従来の評価基準では、システム出力と参照の間のコンテンツ(例えばn-gram)の重なりは満足のいくものではないが、chatgptのような大規模言語モデル(llm)は近年、nlgの評価において大きな可能性を秘めている。
LLMに基づく様々な自動評価手法が提案され、LLMから派生したメトリクス、LLMの促進、ラベル付き評価データによる微調整 LLM などが提案されている。
本調査ではまず, LLM を用いた NLG 評価手法の分類について述べ, その長所と短所について考察する。
また,NLG評価のための人間-LLMコラボレーションについても論じる。
最後に,この領域におけるいくつかのオープンな問題について論じ,今後の研究の方向性を指摘する。
関連論文リスト
- Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Leveraging Large Language Models for NLG Evaluation: A Survey [56.21534358429998]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。
この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。