論文の概要: MVMR: Evaluating Natural Language Video Localization Bias over Multiple
Reliable Videos Pool
- arxiv url: http://arxiv.org/abs/2309.16701v1
- Date: Tue, 15 Aug 2023 17:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:45:18.744689
- Title: MVMR: Evaluating Natural Language Video Localization Bias over Multiple
Reliable Videos Pool
- Title(参考訳): mvmr: 複数の信頼できるビデオプール上での自然言語ビデオローカライゼーションバイアスの評価
- Authors: Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung
- Abstract要約: 本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMR(Massive Videos Moment Retrieval)タスクを提案する。
埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連度スコアを算出し、正と負のセットを定義する。
- 参考スコア(独自算出の注目度): 26.669801059308337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosion of multimedia content in recent years, natural language
video localization, which focuses on detecting video moment that matches a
given natural language query, has become a critical problem. However, none of
the previous research explores localizing a moment from a large corpus where
multiple positive and negative videos exist. In this paper, we propose an MVMR
(Massive Videos Moment Retrieval) task, which aims to localize video frames
from a massive set of videos given a text query. For this task, we suggest
methods for constructing datasets by employing similarity filtering on the
existing video localization datasets and introduce three MVMR datasets.
Specifically, we employ embedding-based text similarity matching and
video-language grounding techniques to calculate the relevance score between a
target query and videos to define positive and negative sets. For the proposed
MVMR task, we further develop a strong model, Reliable Mutual Matching Network
(RMMN), which employs a contrastive learning scheme that selectively filters
the reliable and informative negatives leading the model more robust on the
MVMR task. Experimental results on the introduced datasets reveal that existing
NLVL models are easily distracted by negative video frames, whereas our model
shows significant performance.
- Abstract(参考訳): 近年,マルチメディアコンテンツの爆発的な増加に伴い,自然言語検索にマッチする映像モーメントの検出に重点を置く自然言語ビデオのローカライズが問題となっている。
しかし、以前の研究は、複数のポジティブなビデオとネガティブなビデオが存在する大きなコーパスからの瞬間を局所化するものではない。
本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMRタスクを提案する。
そこで本研究では,既存の映像ローカライゼーションデータセットに類似性フィルタリングを適用し,mvmrデータセットを3つ導入する手法を提案する。
具体的には、埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連スコアを計算し、正と負のセットを定義する。
提案したMVMRタスクに対して,MVMRタスクにおいてモデルをより堅牢に導く信頼性および情報的負を選択的にフィルタするコントラスト学習スキームであるReliable Mutual Matching Network (RMMN) をさらに発展させる。
その結果,既存のNLVLモデルは負の映像フレームによって容易に邪魔されるが,本モデルでは高い性能を示した。
関連論文リスト
- QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。