論文の概要: Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora
- arxiv url: http://arxiv.org/abs/2211.16259v1
- Date: Tue, 29 Nov 2022 14:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:03:02.126996
- Title: Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora
- Title(参考訳): 計測ツールの測定:テキストコーパスにおける意味尺度の自動評価
- Authors: George Kour, Samuel Ackerman, Orna Raz, Eitan Farchi, Boaz Carmeli,
Ateret Anaby-Tavor
- Abstract要約: テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
- 参考スコア(独自算出の注目度): 5.254054636427663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to compare the semantic similarity between text corpora is
important in a variety of natural language processing applications. However,
standard methods for evaluating these metrics have yet to be established. We
propose a set of automatic and interpretable measures for assessing the
characteristics of corpus-level semantic similarity metrics, allowing sensible
comparison of their behavior. We demonstrate the effectiveness of our
evaluation measures in capturing fundamental characteristics by evaluating them
on a collection of classical and state-of-the-art metrics. Our measures
revealed that recently-developed metrics are becoming better in identifying
semantic distributional mismatch while classical metrics are more sensitive to
perturbations in the surface text levels.
- Abstract(参考訳): テキストコーパス間の意味的類似性を比較する能力は、自然言語処理アプリケーションにおいて重要である。
しかし、これらのメトリクスを評価する標準的な方法はまだ確立されていない。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
本研究は,古典的,最先端のメトリクスのコレクション上で評価することで,基本的特性の把握における評価尺度の有効性を示す。
その結果,最近開発された指標は意味的分布ミスマッチの同定に優れており,古典的指標は表層テキストレベルの摂動に敏感であることがわかった。
関連論文リスト
- The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - MENLI: Robust Evaluation Metrics from Natural Language Inference [26.53850343633923]
最近提案されたBERTベースのテキスト生成評価指標は、標準ベンチマークでは良好に機能するが、敵攻撃には弱い。
自然言語推論(NLI)に基づく評価指標を開発する。
我々のNLIベースのメトリクスは、最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-08-15T16:30:14Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - LCEval: Learned Composite Metric for Caption Evaluation [37.2313913156926]
ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。
本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。
提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
論文 参考訳(メタデータ) (2020-12-24T06:38:24Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。