論文の概要: Better Smatch = Better Parser? AMR evaluation is not so simple anymore
- arxiv url: http://arxiv.org/abs/2210.06461v1
- Date: Wed, 12 Oct 2022 17:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:32:03.743921
- Title: Better Smatch = Better Parser? AMR evaluation is not so simple anymore
- Title(参考訳): より良いスマッチ = より良いパーサー?
AMR評価はもはや簡単ではない
- Authors: Juri Opitz and Anette Frank
- Abstract要約: 我々は,ヒトIAAに匹敵する品質レベルに達する2つのAMRを解析した。
高性能を考えると、より良いSmatchスコアは必ずしもより優れた解析品質を示すとは限らない。
- 参考スコア(独自算出の注目度): 22.8438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, astonishing advances have been observed in AMR parsing, as measured
by the structural Smatch metric. In fact, today's systems achieve performance
levels that seem to surpass estimates of human inter annotator agreement (IAA).
Therefore, it is unclear how well Smatch (still) relates to human estimates of
parse quality, as in this situation potentially fine-grained errors of similar
weight may impact the AMR's meaning to different degrees.
We conduct an analysis of two popular and strong AMR parsers that --
according to Smatch -- reach quality levels on par with human IAA, and assess
how human quality ratings relate to Smatch and other AMR metrics. Our main
findings are: i) While high Smatch scores indicate otherwise, we find that AMR
parsing is far from being solved: we frequently find structurally small, but
semantically unacceptable errors that substantially distort sentence meaning.
ii) Considering high-performance parsers, better Smatch scores may not
necessarily indicate consistently better parsing quality. To obtain a
meaningful and comprehensive assessment of quality differences of parse(r)s, we
recommend augmenting evaluations with macro statistics, use of additional
metrics, and more human analysis.
- Abstract(参考訳): 近年,構造的スマッチ法によるAMR解析では驚くべき進展が観察されている。
実際、今日のシステムは、人間間アノテータ合意(IAA)の見積を超越しているように見えるパフォーマンスレベルを達成する。
したがって、Smatch(いまだ)が人間のパース品質の推定とどの程度の相関があるかは不明であり、この状況下では、類似の重みの微粒な誤差がAMRの意味に異なる程度に影響を及ぼす可能性がある。
我々は,人間のiaaと同等の品質レベルに達する2つのポピュラーで強力なamrパーサーの分析を行い,人間の品質評価がsmatchや他のamr指標とどのように関連しているかを評価する。
私たちの主な発見は
i) 高いsmatchスコアは別な点を示すが,amr構文解析は解決に至らず,構造的に小さいが,意味的に許容できない誤りが文の意味を著しく歪めていることが多い。
二 ハイパフォーマンスなパーサーを考えると、より優れたスマッチスコアは、必ずしも一貫したパース品質を示すとは限らない。
parse(r)の品質差を有意義かつ包括的に評価するために、マクロ統計による評価の強化、追加のメトリクスの使用、より人的分析を推奨する。
関連論文リスト
- Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation [12.954531089716008]
MUSHRAテストは、TSシステムの評価を同時に行うための有望な代替手段である。
人間の参照音声の一致への依存は、現代のTSシステムのスコアを不当に考慮していることを示す。
MUSHRAテストの2つの改良版を提案する。
論文 参考訳(メタデータ) (2024-11-19T18:37:45Z) - Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Rematch: Robust and Efficient Matching of Local Knowledge Graphs to Improve Structural and Semantic Similarity [6.1980259703476674]
我々は,新しいAMR類似度指標であるrematchを導入し,RAREと呼ばれる構造類似度の評価を行った。
Rematchは構造的類似度で2位、第1位はSTS-BとSICK-Rのベンチマークで1~5ポイントのセマンティック類似度で2位である。
論文 参考訳(メタデータ) (2024-04-02T17:33:00Z) - AMR Parsing is Far from Solved: GrAPES, the Granular AMR Parsing
Evaluation Suite [18.674172788583967]
粒状AMR解析評価スイート(GrAPES)
粒状AMR解析評価スイート(GrAPES)について紹介する。
GrAPESは、現在のAMRの能力と欠点を深く明らかにしている。
論文 参考訳(メタデータ) (2023-12-06T13:19:56Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - SBERT studies Meaning Representations: Decomposing Sentence Embeddings
into Explainable AMR Meaning Features [22.8438857884398]
非常に効果的な類似度メトリクスを作成しながら、評価の解釈可能な根拠を提供します。
まず、キーセマンティック・ファセットに対する文の類似性を測るAMRグラフメトリクスを選択します。
第二に、これらのメトリクスを用いてセマンティックな構造化文BERT埋め込みを誘導する。
論文 参考訳(メタデータ) (2022-06-14T17:37:18Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Probabilistic, Structure-Aware Algorithms for Improved Variety,
Accuracy, and Coverage of AMR Alignments [9.74672460306765]
本稿では,抽象的意味表現(AMR)の成分を英文で並べるアルゴリズムを提案する。
教師なし学習をグラフと組み合わせて活用し、前回のAMRから両世界を最大限に活用する。
提案手法は,従来考えられていたより多様なAMRサブ構造を網羅し,ノードとエッジのより高いカバレッジを実現し,精度の高いAMRサブ構造を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:46:32Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。