論文の概要: Evaluating NLG systems: A brief introduction
- arxiv url: http://arxiv.org/abs/2303.16742v1
- Date: Wed, 29 Mar 2023 14:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 14:33:52.027873
- Title: Evaluating NLG systems: A brief introduction
- Title(参考訳): NLGシステムの評価 : 簡単な紹介
- Authors: Emiel van Miltenburg
- Abstract要約: 自然言語生成国際会議(INLG)は、最も優れた評価を得た論文を受賞する。
この賞の目的は、NLG研究者がシステムのアウトプットを評価する方法にもっと注意を払うインセンティブを提供することである。
- 参考スコア(独自算出の注目度): 2.8281511593636792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This year the International Conference on Natural Language Generation (INLG)
will feature an award for the paper with the best evaluation. The purpose of
this award is to provide an incentive for NLG researchers to pay more attention
to the way they assess the output of their systems. This essay provides a short
introduction to evaluation in NLG, explaining key terms and distinctions.
- Abstract(参考訳): 今年の国際自然言語生成会議(INLG)では、最高の評価を得た論文を受賞する予定である。
この賞の目的は、nlg研究者がシステムのアウトプットを評価する方法にもっと注意を払うことへのインセンティブを提供することである。
このエッセイは、NLGにおける評価に関する短い紹介を提供し、重要な用語と区別を説明する。
関連論文リスト
- Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and
Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。
その影響と倫理的考察の具体化について検討する。
論文 参考訳(メタデータ) (2022-05-13T18:00:11Z) - Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text [23.119724118572538]
自然言語生成(NLG)における評価手法には多くの既知の欠陥があるが、改良された評価手法が広く採用されることは稀である。
本稿では,人間と自動モデル評価の問題と,NLGでよく使用されるデータセットについて検討する。
論文 参考訳(メタデータ) (2022-02-14T18:51:07Z) - Measuring "Why" in Recommender Systems: a Comprehensive Survey on the
Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文 参考訳(メタデータ) (2022-02-14T02:58:55Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z) - A Survey of Evaluation Metrics Used for NLG Systems [19.20118684502313]
Deep Learningの成功により、幅広い自然言語生成(NLG)タスクへの関心が高まった。
分類タスクとは異なり、NLGシステム自体を自動評価することは大きな課題である。
NLGモデルの増加と現在の指標の欠点は、2014年以降に提案された評価指標の急激な増加につながっている。
論文 参考訳(メタデータ) (2020-08-27T09:25:05Z) - Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文 参考訳(メタデータ) (2020-06-26T04:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。