論文の概要: Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation
- arxiv url: http://arxiv.org/abs/2109.06379v1
- Date: Tue, 14 Sep 2021 01:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:53:18.868905
- Title: Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation
- Title(参考訳): 圧縮、変換、生成:自然言語生成を評価するための統一フレームワーク
- Authors: Mingkai Deng, Bowen Tan, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
- Abstract要約: 自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
- 参考スコア(独自算出の注目度): 85.32991360774447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language generation (NLG) spans a broad range of tasks, each of which
serves for specific objectives and desires different properties of generated
text. The complexity makes automatic evaluation of NLG particularly
challenging. Previous work has typically focused on a single task and developed
individual evaluation metrics based on specific intuitions. In this paper, we
propose a unifying perspective based on the nature of information change in NLG
tasks, including compression (e.g., summarization), transduction (e.g., text
rewriting), and creation (e.g., dialog). Information alignment between input,
context, and output text plays a common central role in characterizing the
generation. With automatic alignment prediction models, we develop a family of
interpretable metrics that are suitable for evaluating key aspects of different
NLG tasks, often without need of gold reference data. Experiments show the
uniformly designed metrics achieve stronger or comparable correlations with
human judgement compared to state-of-the-art metrics in each of diverse tasks,
including text summarization, style transfer, and knowledge-grounded dialog.
- Abstract(参考訳): 自然言語生成(nlg)は幅広いタスクにまたがり、それぞれが特定の目的に役立ち、生成されたテキストの異なる特性を欲しがる。
この複雑さはnlgの自動評価を特に困難にしている。
これまでの作業は通常、ひとつのタスクに集中し、特定の直感に基づいて個々の評価指標を開発した。
本稿では,圧縮(要約),トランスダクション(テキスト書き換え),生成(ダイアログ)など,NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
入力、コンテキスト、出力テキスト間の情報アライメントは、生成を特徴づける上で共通の中心的な役割を果たす。
自動アライメント予測モデルを用いて,ゴールドレファレンスデータを必要とせず,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
実験では、テキスト要約、スタイル転送、知識接地ダイアログなど、さまざまなタスクにおいて、最先端のメトリクスと比較して、統一的に設計されたメトリクスは、人間の判断と強い相関または同等の相関を達成している。
関連論文リスト
- UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for
Personalized Dialogue Systems [44.893215129952395]
大規模言語モデル(LLM)は多くの自然言語理解および生成タスクにおいて例外的な機能を示している。
我々は、パーソナライズされた応答を3つのサブタスク(知識ソース選択、知識検索、応答生成)に分解する。
統一多ソース検索拡張生成システム(UniMS-RAG)を提案する。
論文 参考訳(メタデータ) (2024-01-24T06:50:20Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - Automatic and Human-AI Interactive Text Generation [27.05024520190722]
本チュートリアルは、最先端の自然言語生成研究の概要を提供する。
テキストからテキストへの生成タスクは、セマンティック一貫性とターゲット言語スタイルの観点からより制約される。
論文 参考訳(メタデータ) (2023-10-05T20:26:15Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z) - Few-shot Natural Language Generation for Task-Oriented Dialog [113.07438787659859]
FewShotWozは,タスク指向対話システムにおける数ショットの学習設定をシミュレートする最初の NLG ベンチマークである。
我々は, SC-GPTモデルを開発し, その制御可能な生成能力を得るために, 注釈付きNLGコーパスの大規模なセットで事前学習を行った。
FewShotWozとMulti-Domain-WOZデータセットの実験は、提案したSC-GPTが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-27T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。