論文の概要: Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool
- arxiv url: http://arxiv.org/abs/2309.16701v2
- Date: Mon, 18 Mar 2024 08:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:52:43.865719
- Title: Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool
- Title(参考訳): 本当に否定的か? 複数の信頼度ビデオプール上での自然言語ビデオのローカライゼーション性能の評価
- Authors: Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung,
- Abstract要約: Video Corpus Moment Retrieval (VCMR)は、複数のビデオから与えられた自然言語クエリにマッチするビデオモーメントを検出することを目的としている。
既存のVCMR研究では、特定のクエリと組み合わせていないすべてのビデオは否定的であると見なされている。
ビデオフレームを大規模なビデオ集合内にローカライズすることを目的としたMVMRタスクを提案する。
- 参考スコア(独自算出の注目度): 24.858928681280634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosion of multimedia content in recent years, Video Corpus Moment Retrieval (VCMR), which aims to detect a video moment that matches a given natural language query from multiple videos, has become a critical problem. However, existing VCMR studies have a significant limitation since they have regarded all videos not paired with a specific query as negative, neglecting the possibility of including false negatives when constructing the negative video set. In this paper, we propose an MVMR (Massive Videos Moment Retrieval) task that aims to localize video frames within a massive video set, mitigating the possibility of falsely distinguishing positive and negative videos. For this task, we suggest an automatic dataset construction framework by employing textual and visual semantic matching evaluation methods on the existing video moment search datasets and introduce three MVMR datasets. To solve MVMR task, we further propose a strong method, CroCs, which employs cross-directional contrastive learning that selectively identifies the reliable and informative negatives, enhancing the robustness of a model on MVMR task. Experimental results on the introduced datasets reveal that existing video moment search models are easily distracted by negative video frames, whereas our model shows significant performance.
- Abstract(参考訳): 近年のマルチメディアコンテンツの普及に伴い、複数のビデオから与えられた自然言語クエリにマッチするビデオモーメント検出を目的としたビデオコーパスモーメント検索(VCMR)が重要な問題となっている。
しかし、既存のVCMR研究では、すべてのビデオが特定のクエリとペアにされていないことを負のクエリとみなしており、負のビデオセットを構築する際に偽の負を含む可能性を無視しているため、大きな制限がある。
本稿では,ビデオフレームを巨大なビデオ集合内にローカライズすることを目的としたMVMR(Massive Videos Moment Retrieval)タスクを提案する。
そこで本稿では,既存のビデオモーメント検索データセットにテキストと視覚的セマンティックマッチング評価手法を適用し,MVMRデータセットを3つ導入することで,自動データセット構築フレームワークを提案する。
さらに,MVMRタスクの信頼性と情報的負を選択的に識別し,MVMRタスク上でのモデルの堅牢性を向上する,双方向のコントラスト学習を用いた強力なCroCを提案する。
その結果,既存のビデオモーメント検索モデルは負の映像フレームによって容易に邪魔されるが,本モデルでは顕著な性能を示した。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval [20.254815143604777]
ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
このタスクは、ビデオデータセットに固有の視覚・テクスチャアライメントの弱い問題に悩まされる傾向にある。
背景認識型モーメント検出変換器(BM-DETR)を提案する。
本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
論文 参考訳(メタデータ) (2023-06-05T09:26:33Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。