論文の概要: AMR Similarity Metrics from Principles
- arxiv url: http://arxiv.org/abs/2001.10929v2
- Date: Thu, 17 Sep 2020 09:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 20:46:22.757607
- Title: AMR Similarity Metrics from Principles
- Title(参考訳): 原理からのAMR類似性メトリクス
- Authors: Juri Opitz and Letitia Parcalabescu and Anette Frank
- Abstract要約: 我々は、AMRのような意味表現と比較する指標を、研究者が原則的に評価できる基準を確立する。
偏差をわずかに意味することはより好意的であり、確立された全ての基準を満たすことを目標とする新しい計量 S$2$match を提案する。
- 参考スコア(独自算出の注目度): 21.915057426589748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different metrics have been proposed to compare Abstract Meaning
Representation (AMR) graphs. The canonical Smatch metric (Cai and Knight, 2013)
aligns the variables of two graphs and assesses triple matches. The recent
SemBleu metric (Song and Gildea, 2019) is based on the machine-translation
metric Bleu (Papineni et al., 2002) and increases computational efficiency by
ablating the variable-alignment.
In this paper, i) we establish criteria that enable researchers to perform a
principled assessment of metrics comparing meaning representations like AMR;
ii) we undertake a thorough analysis of Smatch and SemBleu where we show that
the latter exhibits some undesirable properties. For example, it does not
conform to the identity of indiscernibles rule and introduces biases that are
hard to control; iii) we propose a novel metric S$^2$match that is more
benevolent to only very slight meaning deviations and targets the fulfilment of
all established criteria. We assess its suitability and show its advantages
over Smatch and SemBleu.
- Abstract(参考訳): 抽象意味表現(amr)グラフを比較するために異なる指標が提案されている。
the canonical smatch metric (cai and knight, 2013) は、2つのグラフの変数を調整し、3つのマッチを評価する。
最近のSemBleuメトリック(Song and Gildea, 2019)は機械翻訳計量Bleu(Papineni et al., 2002)に基づいており、変数アライメントを非難することで計算効率を向上させる。
この論文では
一 研究者がAMRのような意味表現と比較した指標の原則的評価を行うことができる基準を確立すること。
i) Smatch と SemBleu の徹底的な解析を行い、後者が好ましくない性質を示すことを示す。
例えば、それは認識不能な規則の同一性に適合せず、制御しにくいバイアスを導入します。
iii)非常にわずかな意味の偏差のみに有利な新しい計量 s$^2$match を提案し,すべての確立された基準の満足度を目標とする。
適合性を評価し,SmatchとSemBleuに対する優位性を示す。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Enriching Disentanglement: Definitions to Metrics [97.34033555407403]
分散表現学習は、複雑なデータの変動の複数の要因を分離する難題である。
不整合表現の学習と評価のための様々な指標が提案されているが、これらの指標が真に何を定量化し、どのように比較するかは定かではない。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - Sem@$K$: Is my knowledge graph embedding model semantic-aware? [1.8024397171920883]
我々は、モデルが有効なエンティティw.r.t.ドメインと範囲制約を予測する能力を測定する、以前に紹介したメトリクスSem@Kを拡張した。
実験の結果,Sem@KはKGEMの品質に対する新たな視点を提供することがわかった。
一部のKGEMは本質的に他のものよりも優れているが、この意味上の優位性は、ランクベースのメトリクスのパフォーマンスを示すものではない。
論文 参考訳(メタデータ) (2023-01-13T15:06:47Z) - Rethinking the Evaluation of Unbiased Scene Graph Generation [31.041074897404236]
シーングラフ生成(SGG)手法は、頻繁な述語カテゴリを予測し、稀なカテゴリを認識できない傾向にある。
最近の研究では、偏見のないSGGに焦点が当てられ、Recall@Kを主要な評価基準として採用している。
Independent Mean Recall(IMR)とheighted IMR(wIMR)の2つの相補的評価指標を提案する。
論文 参考訳(メタデータ) (2022-08-03T08:23:51Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - SBERT studies Meaning Representations: Decomposing Sentence Embeddings
into Explainable AMR Meaning Features [22.8438857884398]
非常に効果的な類似度メトリクスを作成しながら、評価の解釈可能な根拠を提供します。
まず、キーセマンティック・ファセットに対する文の類似性を測るAMRグラフメトリクスを選択します。
第二に、これらのメトリクスを用いてセマンティックな構造化文BERT埋め込みを誘導する。
論文 参考訳(メタデータ) (2022-06-14T17:37:18Z) - Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark
for AMR Graph Similarity [12.375561840897742]
従来の指標の強みを統一し,弱点を緩和する新しいAMR類似度指標を提案する。
具体的には、我々の新しいメトリクスは、コンテキスト化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。
グラフベースMR類似度指標の実証評価を支援するために,オーバートオブジェクト(BAMBOO)に基づくAMRメトリクスのベンチマークを導入する。
論文 参考訳(メタデータ) (2021-08-26T17:58:54Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。