論文の概要: EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching
- arxiv url: http://arxiv.org/abs/2111.08919v1
- Date: Wed, 17 Nov 2021 06:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:42:10.636690
- Title: EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching
- Title(参考訳): EMScore: 粗粒と細粒の埋め込みマッチングによるビデオキャプションの評価
- Authors: Yaya Shi, Xu Yang, Haiyang Xu, Chunfeng Yuan, Bing Li, Weiming Hu,
Zheng-Jun Zha
- Abstract要約: 現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
- 参考スコア(独自算出の注目度): 90.98122161162644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current metrics for video captioning are mostly based on the text-level
comparison between reference and candidate captions. However, they have some
insuperable drawbacks, e.g., they cannot handle videos without references, and
they may result in biased evaluation due to the one-to-many nature of
video-to-text and the neglect of visual relevance. From the human evaluator's
viewpoint, a high-quality caption should be consistent with the provided video,
but not necessarily be similar to the reference in literal or semantics.
Inspired by human evaluation, we propose EMScore (Embedding Matching-based
score), a novel reference-free metric for video captioning, which directly
measures similarity between video and candidate captions. Benefit from the
recent development of large-scale pre-training models, we exploit a well
pre-trained vision-language model to extract visual and linguistic embeddings
for computing EMScore. Specifically, EMScore combines matching scores of both
coarse-grained (video and caption) and fine-grained (frames and words) levels,
which takes the overall understanding and detailed characteristics of the video
into account. Furthermore, considering the potential information gain, EMScore
can be flexibly extended to the conditions where human-labeled references are
available. Last but not least, we collect VATEX-EVAL and ActivityNet-FOIl
datasets to systematically evaluate the existing metrics. VATEX-EVAL
experiments demonstrate that EMScore has higher human correlation and lower
reference dependency. ActivityNet-FOIL experiment verifies that EMScore can
effectively identify "hallucinating" captions. The datasets will be released to
facilitate the development of video captioning metrics. The code is available
at: https://github.com/ShiYaya/emscore.
- Abstract(参考訳): 現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
しかし、例えば、参照なしではビデオを扱うことができず、ビデオからテキストへの一対多の性質と視覚的関連性を無視しているため、偏見のある評価をもたらす可能性がある。
人間の評価者の視点からは、高品質なキャプションは提供されたビデオと一致すべきであるが、リテラルやセマンティクスの参照と必ずしも似ているとは限らない。
人間の評価にインスパイアされたemscore(embedding matching-based score)は、ビデオキャプションのための参照フリーな新しい指標で、ビデオキャプションと候補キャプションの類似度を直接測定する。
近年の大規模事前学習モデルの成果として,事前学習された視覚言語モデルを用いて視覚的および言語的埋め込みを抽出し,emscoreの計算を行う。
特にemscoreは、粗粒度(ビデオとキャプション)と細粒度(フレームとワード)の両方のスコアをマッチングし、ビデオの全体的な理解と詳細な特性を考慮に入れている。
さらに、潜在的な情報ゲインを考慮すると、EMScoreは人間ラベルの参照が利用できる状態まで柔軟に拡張できる。
最後に、VATEX-EVALおよびActivityNet-FOIlデータセットを収集し、既存のメトリクスを体系的に評価する。
VATEX-EVAL実験により、EMScoreは高い人間相関と低い基準依存性を持つことが示された。
ActivityNet-FOIL実験は、EMScoreが効果的に"幻覚"キャプションを識別できることを検証する。
データセットは、ビデオキャプションメトリクスの開発を容易にするためにリリースされる。
コードは、https://github.com/ShiYaya/emscore.comで入手できる。
関連論文リスト
- HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video
Retrieval Benchmarks [6.540440003084223]
ビデオキャプションデータセットは、モデルを評価するために再利用されている。
多くの代替ビデオもキャプションと一致し、偽陰性なキャプションとビデオのペアが導入された。
これらの誤りを正すと、最近の最先端モデルでは25%のリコールポイントが得られることを示す。
論文 参考訳(メタデータ) (2022-10-10T22:45:06Z) - Can Audio Captions Be Evaluated with Image Caption Metrics? [11.45508807551818]
本稿では, 類似性を捉える上で, センテンス-BERTの強みと, 誤り検出器を組み合わさって, 誤文を強靭性のためにペナルティ化する手法を提案する。
新たに確立されたベンチマークでは、FENSEが現在のメトリクスを14~25%の精度で上回っている。
論文 参考訳(メタデータ) (2021-10-10T02:34:40Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。