論文の概要: Leveraging Large Language Models for NLG Evaluation: A Survey
- arxiv url: http://arxiv.org/abs/2401.07103v1
- Date: Sat, 13 Jan 2024 15:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:43:18.500734
- Title: Leveraging Large Language Models for NLG Evaluation: A Survey
- Title(参考訳): NLG評価のための大規模言語モデルの活用:調査
- Authors: Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Chongyang Tao
- Abstract要約: LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。
この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
- 参考スコア(独自算出の注目度): 56.21534358429998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving domain of Natural Language Generation (NLG)
evaluation, introducing Large Language Models (LLMs) has opened new avenues for
assessing generated content quality, e.g., coherence, creativity, and context
relevance. This survey aims to provide a thorough overview of leveraging LLMs
for NLG evaluation, a burgeoning area that lacks a systematic analysis. We
propose a coherent taxonomy for organizing existing LLM-based evaluation
metrics, offering a structured framework to understand and compare these
methods. Our detailed exploration includes critically assessing various
LLM-based methodologies, as well as comparing their strengths and limitations
in evaluating NLG outputs. By discussing unresolved challenges, including bias,
robustness, domain-specificity, and unified evaluation, this survey seeks to
offer insights to researchers and advocate for fairer and more advanced NLG
evaluation techniques.
- Abstract(参考訳): 急速に発展している自然言語生成(NLG)評価分野において、Large Language Models (LLMs)を導入し、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
本調査は, 系統解析に欠ける新興地域であるNLG評価におけるLCMの活用について, 概観することを目的とする。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
我々の詳細な調査には、様々なLCMベースの方法論を批判的に評価することや、NLG出力の評価における強度と限界を比較することが含まれる。
バイアス、堅牢性、ドメイン固有性、統一評価などの未解決課題を議論することで、この調査は研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目指している。
関連論文リスト
- HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence [5.454656183053655]
我々は23の最先端のLarge Language Modelsベンチマークを批判的に評価する。
私たちの研究は、偏見、真の推論を測ることの難しさなど、重大な制限を発見しました。
静的ベンチマークから動的行動プロファイリングへの進化を提唱する。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - LLM-based NLG Evaluation: Current Status and Challenges [41.69249290537395]
自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。
大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。
LLMに基づく各種自動評価手法が提案されている。
論文 参考訳(メタデータ) (2024-02-02T13:06:35Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and
Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。
その影響と倫理的考察の具体化について検討する。
論文 参考訳(メタデータ) (2022-05-13T18:00:11Z) - Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text [23.119724118572538]
自然言語生成(NLG)における評価手法には多くの既知の欠陥があるが、改良された評価手法が広く採用されることは稀である。
本稿では,人間と自動モデル評価の問題と,NLGでよく使用されるデータセットについて検討する。
論文 参考訳(メタデータ) (2022-02-14T18:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。