論文の概要: Can Audio Captions Be Evaluated with Image Caption Metrics?
- arxiv url: http://arxiv.org/abs/2110.04684v1
- Date: Sun, 10 Oct 2021 02:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 19:01:11.303444
- Title: Can Audio Captions Be Evaluated with Image Caption Metrics?
- Title(参考訳): オーディオキャプションは画像キャプションメトリクスで評価できるか?
- Authors: Zelin Zhou, Zhiling Zhang, Xuenan Xu, Zeyu Xie, Mengyue Wu, Kenny Q.
Zhu
- Abstract要約: 本稿では, 類似性を捉える上で, センテンス-BERTの強みと, 誤り検出器を組み合わさって, 誤文を強靭性のためにペナルティ化する手法を提案する。
新たに確立されたベンチマークでは、FENSEが現在のメトリクスを14~25%の精度で上回っている。
- 参考スコア(独自算出の注目度): 11.45508807551818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated audio captioning aims at generating textual descriptions for an
audio clip. To evaluate the quality of generated audio captions, previous works
directly adopt image captioning metrics like SPICE and CIDEr, without
justifying their suitability in this new domain, which may mislead the
development of advanced models. This problem is still unstudied due to the lack
of human judgment datasets on caption quality. Therefore, we firstly construct
two evaluation benchmarks, AudioCaps-Eval and Clotho-Eval. They are established
with pairwise comparison instead of absolute rating to achieve better
inter-annotator agreement. Current metrics are found in poor correlation with
human annotations on these datasets. To overcome their limitations, we propose
a metric named FENSE, where we combine the strength of Sentence-BERT in
capturing similarity, and a novel Error Detector to penalize erroneous
sentences for robustness. On the newly established benchmarks, FENSE
outperforms current metrics by 14-25% accuracy. Code, data and web demo
available at: https://github.com/blmoistawinde/fense
- Abstract(参考訳): 自動音声キャプションは、音声クリップのテキスト記述を生成することを目的としている。
生成された音声キャプションの品質を評価するため、従来の研究では、SPICEやCIDErといった画像キャプションの指標を直接採用していたが、この新領域での適合性を正当化することはできなかった。
この問題は、キャプションの品質に関する人間の判断データセットが欠如しているため、まだ解明されていない。
そこで我々はまず,AudioCaps-Eval と Clotho-Eval の2つの評価ベンチマークを構築した。
これらは、アノテータ間の合意をより良く達成するために、絶対評価の代わりにペア比較で確立される。
現在のメトリクスは、これらのデータセット上の人間のアノテーションと相関が低い。
それらの制約を克服するため, 類似性を捉える上でのセンテンス-BERTの強みを組み合わせたFENSE(Fentence-BERT)という計量法と, 誤文の堅牢性に対処する新しい誤り検出器(Error Detector)を提案する。
新たに確立されたベンチマークでは、FENSEが現在のメトリクスを14~25%の精度で上回っている。
コード、データ、webデモはhttps://github.com/blmoistawinde/fenseで利用可能
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z) - COSMic: A Coherence-Aware Generation Metric for Image Descriptions [27.41088864449921]
画像メトリクスは、テキスト評価モデルのセマンティックおよび実用的成功の正確な学習された推定を与えるのに苦労してきた。
出力の出力を評価するための最初の学習的生成指標を示す。
提案手法では,BLEURTやBERTなどの他の指標と比較して,複数の最先端キャプションモデルの結果に対する人的判断の精度が高いことを示す。
論文 参考訳(メタデータ) (2021-09-11T13:43:36Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。