論文の概要: Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark
for AMR Graph Similarity
- arxiv url: http://arxiv.org/abs/2108.11949v1
- Date: Thu, 26 Aug 2021 17:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:17:39.724145
- Title: Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark
for AMR Graph Similarity
- Title(参考訳): BAMBOOにおけるWeisfeiler-Leman:新しいAMRグラフメトリクスとAMRグラフ類似性ベンチマーク
- Authors: Juri Opitz and Angel Daza and Anette Frank
- Abstract要約: 従来の指標の強みを統一し,弱点を緩和する新しいAMR類似度指標を提案する。
具体的には、我々の新しいメトリクスは、コンテキスト化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。
グラフベースMR類似度指標の実証評価を支援するために,オーバートオブジェクト(BAMBOO)に基づくAMRメトリクスのベンチマークを導入する。
- 参考スコア(独自算出の注目度): 12.375561840897742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several metrics have been proposed for assessing the similarity of (abstract)
meaning representations (AMRs), but little is known about how they relate to
human similarity ratings. Moreover, the current metrics have complementary
strengths and weaknesses: some emphasize speed, while others make the alignment
of graph structures explicit, at the price of a costly alignment step.
In this work we propose new Weisfeiler-Leman AMR similarity metrics that
unify the strengths of previous metrics, while mitigating their weaknesses.
Specifically, our new metrics are able to match contextualized substructures
and induce n:m alignments between their nodes. Furthermore, we introduce a
Benchmark for AMR Metrics based on Overt Objectives (BAMBOO), the first
benchmark to support empirical assessment of graph-based MR similarity metrics.
BAMBOO maximizes the interpretability of results by defining multiple overt
objectives that range from sentence similarity objectives to stress tests that
probe a metric's robustness against meaning-altering and meaning-preserving
graph transformations. We show the benefits of BAMBOO by profiling previous
metrics and our own metrics. Results indicate that our novel metrics may serve
as a strong baseline for future work.
- Abstract(参考訳): 表現(AMR)の類似性を評価するためにいくつかの指標が提案されているが、それらが人間の類似性評価とどのように関連しているかは分かっていない。
さらに、現在のメトリクスには相補的な長所と短所がある。スピードを強調するものもあれば、コストのかかるアライメントステップの価格でグラフ構造のアライメントを明確にするものもある。
本研究では,従来の指標の強度を統一し,弱点を緩和する新しいWeisfeiler-Leman AMR類似度指標を提案する。
具体的には、新しいメトリクスは文脈化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。
さらに、グラフベースのMR類似度メトリクスの実証評価をサポートする最初のベンチマークであるOvert Objectives (BAMBOO)に基づくAMRメトリックのベンチマークを導入する。
bambooは、文の類似性目標から、意味変化や意味保存グラフ変換に対するメトリクスのロバスト性を調べるストレステストまで、複数のオーバート目標を定義することで、結果の解釈可能性を最大化する。
従来のメトリクスと私たちのメトリクスをプロファイリングすることで、BAMBOOの利点を示します。
結果は、我々の新しいメトリクスが将来の仕事の強力なベースラインになることを示している。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Rematch: Robust and Efficient Matching of Local Knowledge Graphs to Improve Structural and Semantic Similarity [6.1980259703476674]
我々は,新しいAMR類似度指標であるrematchを導入し,RAREと呼ばれる構造類似度の評価を行った。
Rematchは構造的類似度で2位、第1位はSTS-BとSICK-Rのベンチマークで1~5ポイントのセマンティック類似度で2位である。
論文 参考訳(メタデータ) (2024-04-02T17:33:00Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - MENLI: Robust Evaluation Metrics from Natural Language Inference [26.53850343633923]
最近提案されたBERTベースのテキスト生成評価指標は、標準ベンチマークでは良好に機能するが、敵攻撃には弱い。
自然言語推論(NLI)に基づく評価指標を開発する。
我々のNLIベースのメトリクスは、最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-08-15T16:30:14Z) - SBERT studies Meaning Representations: Decomposing Sentence Embeddings
into Explainable AMR Meaning Features [22.8438857884398]
非常に効果的な類似度メトリクスを作成しながら、評価の解釈可能な根拠を提供します。
まず、キーセマンティック・ファセットに対する文の類似性を測るAMRグラフメトリクスを選択します。
第二に、これらのメトリクスを用いてセマンティックな構造化文BERT埋め込みを誘導する。
論文 参考訳(メタデータ) (2022-06-14T17:37:18Z) - A Unified Framework for Rank-based Evaluation Metrics for Link
Prediction in Knowledge Graphs [19.822126244784133]
負の負の3倍数を持たない知識グラフ上のリンク予測タスクは、ランクベースのメトリクスの使用を動機付けている。
本稿では,既存の測度を改善するための2つの方法について,代替アグリゲーション関数と確率論の概念を用いて検討する。
本稿では,知識グラフ埋め込みモデルのベンチマークにおいて,その使用例を示すとともに,より容易に解釈・比較できる新しいランクベースの指標を提案する。
論文 参考訳(メタデータ) (2022-03-14T23:09:46Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - AMR Similarity Metrics from Principles [21.915057426589748]
我々は、AMRのような意味表現と比較する指標を、研究者が原則的に評価できる基準を確立する。
偏差をわずかに意味することはより好意的であり、確立された全ての基準を満たすことを目標とする新しい計量 S$2$match を提案する。
論文 参考訳(メタデータ) (2020-01-29T16:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。