論文の概要: A Dynamic, Interpreted CheckList for Meaning-oriented NLG Metric
Evaluation -- through the Lens of Semantic Similarity Rating
- arxiv url: http://arxiv.org/abs/2205.12176v1
- Date: Tue, 24 May 2022 16:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 18:55:25.841331
- Title: A Dynamic, Interpreted CheckList for Meaning-oriented NLG Metric
Evaluation -- through the Lens of Semantic Similarity Rating
- Title(参考訳): 意味的類似度評価レンズによる意味指向的nlg計量評価のための動的・解釈的チェックリスト
- Authors: Laura Zeidler, Juri Opitz and Anette Frank
- Abstract要約: 我々は,意味関連言語現象を中心に組織されたNLGメトリクスのチェックリストを開発した。
各テストインスタンスは、AMRグラフを持つ一対の文と、人間が生成したテキストの意味的類似性または関連性スコアから構成される。
本稿では,AMR の概念よりも語彙的凝集グラフを計算できる新しい指標 GraCo を設計し,CheckList の有用性を実証する。
- 参考スコア(独自算出の注目度): 19.33681537640272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of generated text is difficult, since traditional NLG
evaluation metrics, focusing more on surface form than meaning, often fail to
assign appropriate scores. This is especially problematic for AMR-to-text
evaluation, given the abstract nature of AMR. Our work aims to support the
development and improvement of NLG evaluation metrics that focus on meaning, by
developing a dynamic CheckList for NLG metrics that is interpreted by being
organized around meaning-relevant linguistic phenomena. Each test instance
consists of a pair of sentences with their AMR graphs and a human-produced
textual semantic similarity or relatedness score. Our CheckList facilitates
comparative evaluation of metrics and reveals strengths and weaknesses of novel
and traditional metrics. We demonstrate the usefulness of CheckList by
designing a new metric GraCo that computes lexical cohesion graphs over AMR
concepts. Our analysis suggests that GraCo presents an interesting NLG metric
worth future investigation and that meaning-oriented NLG metrics can profit
from graph-based metric components using AMR.
- Abstract(参考訳): 従来のnlg評価指標は、意味よりも表面形態に焦点を当てており、しばしば適切なスコアを割り当てることができないため、生成テキストの品質評価は困難である。
AMRの抽象的な性質を考えると、これはAMRからテキストへの評価において特に問題となる。
本研究は,意味に焦点をあてたNLG評価指標の開発と改善を支援することを目的として,意味関連言語現象を中心に整理されたNLG評価指標の動的チェックリストを開発した。
各テストインスタンスは、AMRグラフを持つ一対の文と、人間が生成したテキストの意味的類似性または関連性スコアからなる。
私たちのCheckListはメトリクスの比較評価を促進し、新しいメトリクスと伝統的なメトリクスの長所と短所を明らかにします。
amr概念上の語彙結合グラフを計算する新しいメトリックグラコを設計することで、チェックリストの有用性を実証する。
分析の結果,GraCoは今後の調査に値する興味深いNLG指標を示し,意味指向のNLG指標はAMRを用いてグラフベースのメトリックコンポーネントから利益を得ることができることが示唆された。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Rematch: Robust and Efficient Matching of Local Knowledge Graphs to Improve Structural and Semantic Similarity [6.1980259703476674]
我々は,新しいAMR類似度指標であるrematchを導入し,RAREと呼ばれる構造類似度の評価を行った。
Rematchは構造的類似度で2位、第1位はSTS-BとSICK-Rのベンチマークで1~5ポイントのセマンティック類似度で2位である。
論文 参考訳(メタデータ) (2024-04-02T17:33:00Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - REV: Information-Theoretic Evaluation of Free-Text Rationales [83.24985872655738]
理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである、と我々は主張する。
本稿では,REV (Rationale Evaluation with Conditional V-information) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T19:31:30Z) - Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark
for AMR Graph Similarity [12.375561840897742]
従来の指標の強みを統一し,弱点を緩和する新しいAMR類似度指標を提案する。
具体的には、我々の新しいメトリクスは、コンテキスト化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。
グラフベースMR類似度指標の実証評価を支援するために,オーバートオブジェクト(BAMBOO)に基づくAMRメトリクスのベンチマークを導入する。
論文 参考訳(メタデータ) (2021-08-26T17:58:54Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards a Decomposable Metric for Explainable Evaluation of Text
Generation from AMR [22.8438857884398]
AMRシステムは典型的には、生成されたテキストと入力の意味表現が構築された参照テキストを比較するメトリクスを用いて評価される。
このような指標が苦しむ既知の問題に加えて,これらの指標をAMR-to-text評価に適用する場合に新たな問題が発生することを示す。
両原則の履行がAMR-to-text評価に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-20T11:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。