論文の概要: Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool
- arxiv url: http://arxiv.org/abs/2309.16701v2
- Date: Mon, 18 Mar 2024 08:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:52:43.865719
- Title: Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool
- Title(参考訳): 本当に否定的か? 複数の信頼度ビデオプール上での自然言語ビデオのローカライゼーション性能の評価
- Authors: Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung,
- Abstract要約: Video Corpus Moment Retrieval (VCMR)は、複数のビデオから与えられた自然言語クエリにマッチするビデオモーメントを検出することを目的としている。
既存のVCMR研究では、特定のクエリと組み合わせていないすべてのビデオは否定的であると見なされている。
ビデオフレームを大規模なビデオ集合内にローカライズすることを目的としたMVMRタスクを提案する。
- 参考スコア(独自算出の注目度): 24.858928681280634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosion of multimedia content in recent years, Video Corpus Moment Retrieval (VCMR), which aims to detect a video moment that matches a given natural language query from multiple videos, has become a critical problem. However, existing VCMR studies have a significant limitation since they have regarded all videos not paired with a specific query as negative, neglecting the possibility of including false negatives when constructing the negative video set. In this paper, we propose an MVMR (Massive Videos Moment Retrieval) task that aims to localize video frames within a massive video set, mitigating the possibility of falsely distinguishing positive and negative videos. For this task, we suggest an automatic dataset construction framework by employing textual and visual semantic matching evaluation methods on the existing video moment search datasets and introduce three MVMR datasets. To solve MVMR task, we further propose a strong method, CroCs, which employs cross-directional contrastive learning that selectively identifies the reliable and informative negatives, enhancing the robustness of a model on MVMR task. Experimental results on the introduced datasets reveal that existing video moment search models are easily distracted by negative video frames, whereas our model shows significant performance.
- Abstract(参考訳): 近年のマルチメディアコンテンツの普及に伴い、複数のビデオから与えられた自然言語クエリにマッチするビデオモーメント検出を目的としたビデオコーパスモーメント検索(VCMR)が重要な問題となっている。
しかし、既存のVCMR研究では、すべてのビデオが特定のクエリとペアにされていないことを負のクエリとみなしており、負のビデオセットを構築する際に偽の負を含む可能性を無視しているため、大きな制限がある。
本稿では,ビデオフレームを巨大なビデオ集合内にローカライズすることを目的としたMVMR(Massive Videos Moment Retrieval)タスクを提案する。
そこで本稿では,既存のビデオモーメント検索データセットにテキストと視覚的セマンティックマッチング評価手法を適用し,MVMRデータセットを3つ導入することで,自動データセット構築フレームワークを提案する。
さらに,MVMRタスクの信頼性と情報的負を選択的に識別し,MVMRタスク上でのモデルの堅牢性を向上する,双方向のコントラスト学習を用いた強力なCroCを提案する。
その結果,既存のビデオモーメント検索モデルは負の映像フレームによって容易に邪魔されるが,本モデルでは顕著な性能を示した。
関連論文リスト
- QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。