論文の概要: Evaluation of Text Generation: A Survey
- arxiv url: http://arxiv.org/abs/2006.14799v2
- Date: Tue, 18 May 2021 07:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:45:03.609646
- Title: Evaluation of Text Generation: A Survey
- Title(参考訳): テキスト生成の評価:調査
- Authors: Asli Celikyilmaz, Elizabeth Clark, Jianfeng Gao
- Abstract要約: 本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
- 参考スコア(独自算出の注目度): 107.62760642328455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper surveys evaluation methods of natural language generation (NLG)
systems that have been developed in the last few years. We group NLG evaluation
methods into three categories: (1) human-centric evaluation metrics, (2)
automatic metrics that require no training, and (3) machine-learned metrics.
For each category, we discuss the progress that has been made and the
challenges still being faced, with a focus on the evaluation of recently
proposed NLG tasks and neural NLG models. We then present two examples for
task-specific NLG evaluations for automatic text summarization and long text
generation, and conclude the paper by proposing future research directions.
- Abstract(参考訳): 本稿は,ここ数年で開発された自然言語生成システム(NLG)の評価手法について検討する。
nlg評価方法は,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
各カテゴリにおいて、最近提案されたNLGタスクとニューラルNLGモデルの評価に焦点をあて、現在行われている進歩と課題について論じる。
次に,テキストの自動要約と長文生成のためのタスク固有のnlg評価の2つの例を示し,今後の研究の方向性を述べる。
関連論文リスト
- Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text [23.119724118572538]
自然言語生成(NLG)における評価手法には多くの既知の欠陥があるが、改良された評価手法が広く採用されることは稀である。
本稿では,人間と自動モデル評価の問題と,NLGでよく使用されるデータセットについて検討する。
論文 参考訳(メタデータ) (2022-02-14T18:51:07Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z) - A Survey of Evaluation Metrics Used for NLG Systems [19.20118684502313]
Deep Learningの成功により、幅広い自然言語生成(NLG)タスクへの関心が高まった。
分類タスクとは異なり、NLGシステム自体を自動評価することは大きな課題である。
NLGモデルの増加と現在の指標の欠点は、2014年以降に提案された評価指標の急激な増加につながっている。
論文 参考訳(メタデータ) (2020-08-27T09:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。