論文の概要: LCEval: Learned Composite Metric for Caption Evaluation
- arxiv url: http://arxiv.org/abs/2012.13136v1
- Date: Thu, 24 Dec 2020 06:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:19:43.471421
- Title: LCEval: Learned Composite Metric for Caption Evaluation
- Title(参考訳): LCEval: カプセル評価のための複合メトリックの学習
- Authors: Naeha Sharif and Lyndon White and Mohammed Bennamoun and Wei Liu and
Syed Afaq Ali Shah
- Abstract要約: ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。
本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。
提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
- 参考スコア(独自算出の注目度): 37.2313913156926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation metrics hold a fundamental importance in the development
and fine-grained analysis of captioning systems. While current evaluation
metrics tend to achieve an acceptable correlation with human judgements at the
system level, they fail to do so at the caption level. In this work, we propose
a neural network-based learned metric to improve the caption-level caption
evaluation. To get a deeper insight into the parameters which impact a learned
metrics performance, this paper investigates the relationship between different
linguistic features and the caption-level correlation of the learned metrics.
We also compare metrics trained with different training examples to measure the
variations in their evaluation. Moreover, we perform a robustness analysis,
which highlights the sensitivity of learned and handcrafted metrics to various
sentence perturbations. Our empirical analysis shows that our proposed metric
not only outperforms the existing metrics in terms of caption-level correlation
but it also shows a strong system-level correlation against human assessments.
- Abstract(参考訳): 自動評価指標は字幕システムの開発と細部解析において重要な意味を持つ。
現在の評価基準は、システムレベルでの人間の判断と許容できる相関性を達成する傾向にあるが、キャプションレベルでは達成できない。
本研究では,キャプションレベルのキャプション評価を改善するために,ニューラルネットワークを用いた学習指標を提案する。
本稿では,学習指標のパフォーマンスに影響を与えるパラメータについて,異なる言語的特徴と学習指標のキャプションレベル相関との関係について検討する。
また、異なるトレーニング例でトレーニングされたメトリクスを比較して、評価のバリエーションを測定します。
さらに,様々な文の摂動に対する学習指標と手作り指標の感度を強調するロバスト性解析を行う。
実験分析の結果,提案指標はキャプションレベルの相関から既存の指標よりも優れているだけでなく,人的評価に対するシステムレベルの相関も強いことがわかった。
関連論文リスト
- JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures
for Image Captioning Models [1.534667887016089]
本稿では,シーングラフに基づく日本語字幕評価を行うJaSPICEという自動評価指標を提案する。
実験では,STAIRキャプションとPFN-PICで訓練した10の画像キャプションモデルを用いて,103,170人の評価を含む七味データセットを構築した。
論文 参考訳(メタデータ) (2023-11-07T18:33:34Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。