論文の概要: A Human Evaluation of AMR-to-English Generation Systems
- arxiv url: http://arxiv.org/abs/2004.06814v2
- Date: Tue, 1 Dec 2020 17:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:40:41.491206
- Title: A Human Evaluation of AMR-to-English Generation Systems
- Title(参考訳): AMR-to- English 生成システムの人間による評価
- Authors: Emma Manning, Shira Wein, Nathan Schneider
- Abstract要約: 本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
- 参考スコア(独自算出の注目度): 13.10463139842285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current state-of-the art systems for generating English text from
Abstract Meaning Representation (AMR) have been evaluated only using automated
metrics, such as BLEU, which are known to be problematic for natural language
generation. In this work, we present the results of a new human evaluation
which collects fluency and adequacy scores, as well as categorization of error
types, for several recent AMR generation systems. We discuss the relative
quality of these systems and how our results compare to those of automatic
metrics, finding that while the metrics are mostly successful in ranking
systems overall, collecting human judgments allows for more nuanced
comparisons. We also analyze common errors made by these systems.
- Abstract(参考訳): 抽象的意味表現(AMR)から英語のテキストを生成する技術システムの多くは、自然言語生成に問題があることが知られているBLEUのような自動メトリクスを使用して評価されている。
本研究では,近年のamr生成システムにおいて,変動度と妥当性のスコアを収集し,エラータイプを分類した新しい評価結果を示す。
これらのシステムの相対的な品質と結果が自動測定値と比較された結果について論じ、これらの指標は総合的なランキングシステムではほとんど成功しているが、人間の判断の収集はより微妙な比較を可能にする。
これらのシステムによる一般的なエラーも分析する。
関連論文リスト
- A Benchmark of French ASR Systems Based on Error Severity [6.657432034629865]
誤りを4つの重大度に分類する新たな評価法を提案する。
この基準は、フランス語で10の最先端のASRシステムのベンチマークに適用される。
論文 参考訳(メタデータ) (2025-01-18T21:07:18Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。