論文の概要: Automating Text Naturalness Evaluation of NLG Systems
- arxiv url: http://arxiv.org/abs/2006.13268v1
- Date: Tue, 23 Jun 2020 18:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:51:02.476825
- Title: Automating Text Naturalness Evaluation of NLG Systems
- Title(参考訳): NLGシステムのテキスト自然度自動評価
- Authors: Erion \c{C}ano and Ond\v{r}ej Bojar
- Abstract要約: 本稿では,テキストの自然性評価を自動化する試みについて述べる。
テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。
テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic methods and metrics that assess various quality criteria of
automatically generated texts are important for developing NLG systems because
they produce repeatable results and allow for a fast development cycle. We
present here an attempt to automate the evaluation of text naturalness which is
a very important characteristic of natural language generation methods. Instead
of relying on human participants for scoring or labeling the text samples, we
propose to automate the process by using a human likeliness metric we define
and a discrimination procedure based on large pretrained language models with
their probability distributions. We analyze the text probability fractions and
observe how they are influenced by the size of the generative and
discriminative models involved in the process. Based on our results, bigger
generators and larger pretrained discriminators are more appropriate for a
better evaluation of text naturalness. A comprehensive validation procedure
with human participants is required as follow up to check how well this
automatic evaluation scheme correlates with human judgments.
- Abstract(参考訳): 自動生成テキストの様々な品質基準を評価する自動メソッドとメトリクスは、繰り返し結果を生成し、迅速な開発サイクルを可能にするため、nlgシステムを開発する上で重要である。
本稿では,自然言語生成手法の重要な特徴であるテキスト自然性の評価を自動化する試みについて述べる。
テキストサンプルのスコアリングやラベル付けに人間の参加者に頼る代わりに、定義した人間の類似度メトリックと、その確率分布を持つ大規模事前学習言語モデルに基づく識別手順を用いて、プロセスを自動化することを提案する。
テキストの確率分数を分析し,生成モデルと識別モデルのサイズにどのように影響するかを観察する。
以上の結果から,テキスト自然性の評価には,より大きな生成器とより大きな事前学習された判別器がより適していることがわかった。
この自動評価方式が人間の判断とどの程度の相関があるかを確認するために、人間との包括的な検証手順が必要である。
関連論文リスト
- Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Naturalness Evaluation of Natural Language Generation in Task-oriented
Dialogues using BERT [6.1478669848771546]
本稿では,対話システムにおける自然言語生成の自然性を評価する手法を提案する。
BERTモデルの微調整により,提案した自然度評価法は,ロバストな結果を示し,ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-07T08:40:14Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Human or Machine: Automating Human Likeliness Evaluation of NLG Texts [0.0]
そこで,本研究では,人間によって書かれたように思われる手法を用いて,出力サンプルのパーセンテージを示す,人間の類似度スコアを提案する。
以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。
論文 参考訳(メタデータ) (2020-06-05T00:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。