論文の概要: Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video
Retrieval Benchmarks
- arxiv url: http://arxiv.org/abs/2210.05038v1
- Date: Mon, 10 Oct 2022 22:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:00:45.719466
- Title: Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video
Retrieval Benchmarks
- Title(参考訳): 火災との戦い--テキスト対ビデオ検索ベンチマークの有効性評価
- Authors: Pedro Rodriguez, Mahmoud Azab, Becka Silvert, Renato Sanchez, Linzy
Labson, Hardik Shah and Seungwhan Moon
- Abstract要約: ビデオキャプションデータセットは、モデルを評価するために再利用されている。
多くの代替ビデオもキャプションにマッチし、偽陰性なキャプションとビデオのペアを生成する。
これらの誤りを正すと、最近の最先端モデルでは25%のリコールポイントが得られることを示す。
- 参考スコア(独自算出の注目度): 6.540440003084223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Searching vast troves of videos with textual descriptions is a core
multimodal retrieval task. Owing to the lack of a purpose-built dataset for
text-to-video retrieval, video captioning datasets have been re-purposed to
evaluate models by (1) treating captions as positive matches to their
respective videos and (2) all other videos as negatives. However, this
methodology leads to a fundamental flaw during evaluation: since captions are
marked as relevant only to their original video, many alternate videos also
match the caption, which creates false-negative caption-video pairs. We show
that when these false negatives are corrected, a recent state-of-the-art model
gains 25% recall points -- a difference that threatens the validity of the
benchmark itself. To diagnose and mitigate this issue, we annotate and release
683K additional caption-video pairs. Using these, we recompute effectiveness
scores for three models on two standard benchmarks (MSR-VTT and MSVD). We find
that (1) the recomputed metrics are up to 25% recall points higher for the best
models, (2) these benchmarks are nearing saturation for Recall@10, (3) caption
length (generality) is related to the number of positives, and (4) annotation
costs can be mitigated by choosing evaluation sizes corresponding to desired
effect size to detect. We recommend retiring these benchmarks in their current
form and make recommendations for future text-to-video retrieval benchmarks.
- Abstract(参考訳): テキスト記述による膨大なビデオの検索は、重要なマルチモーダル検索タスクである。
テキスト対ビデオ検索のための目的のデータセットが欠如していることから,(1)キャプションをそれぞれのビデオに正の一致として扱うこと,(2)他のすべての動画を負のものとして扱うことで,モデルを評価するためにビデオキャプションデータセットが再設計された。
しかし、この手法は評価中に根本的な欠陥をもたらす:キャプションは元のビデオにのみ関連付けられているため、多くの代替ビデオはキャプションと一致し、偽陰性なキャプションとビデオのペアを生成する。
これらの偽陰性が修正されると、最近の最先端モデルでは25%のリコールポイントが得られ、ベンチマーク自体の有効性を脅かしている。
この問題を診断し緩和するために、683K追加のキャプションビデオペアを注釈してリリースする。
これらを用いて、2つの標準ベンチマーク(MSR-VTTとMSVD)における3つのモデルの有効性スコアを再計算する。
その結果,(1)再計算された指標は,ベストモデルに対して最大25%のリコールポイント,(2)Recall@10の飽和度に近づき,(3)キャプション長(一般性)は正の数に関係しており,(4)検出すべき効果サイズに応じた評価サイズを選択することで,アノテーションコストを軽減できることがわかった。
これらのベンチマークを現在の形で廃止し、将来のテキスト・ビデオ検索ベンチマークに推奨する。
関連論文リスト
- Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Learning video retrieval models with relevance-aware online mining [16.548016892117083]
典型的なアプローチは、ビデオと関連するキャプションの類似性を最大化する、共同のテキスト-ビデオ埋め込み空間を学習することである。
このアプローチでは、データセット内のビデオとキャプションペアのみが有効であると仮定するが、異なるキャプション — 肯定的な — もまたその視覚的内容を記述する可能性があるため、そのいくつかは誤って罰せられる可能性がある。
本稿では, 負のセマンティクスに基づいて, それらの選択を改善するとともに, 有効正の類似性を高めることを目的として, RANP(Relevance-Aware Negatives and Positives mining)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:23:55Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - On Semantic Similarity in Video Retrieval [31.61611168620582]
本稿では,複数の映像/キャプチャを等しく関連づけることができる意味的類似性ビデオ検索への移行を提案する。
3つの一般的なビデオ検索データセット(MSR-VTT、YouCook2、EPIC-KITCHENS)で解析を行います。
論文 参考訳(メタデータ) (2021-03-18T09:12:40Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。