論文の概要: MVMR: Evaluating Natural Language Video Localization Bias over Multiple
Reliable Videos Pool
- arxiv url: http://arxiv.org/abs/2309.16701v1
- Date: Tue, 15 Aug 2023 17:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:45:18.744689
- Title: MVMR: Evaluating Natural Language Video Localization Bias over Multiple
Reliable Videos Pool
- Title(参考訳): mvmr: 複数の信頼できるビデオプール上での自然言語ビデオローカライゼーションバイアスの評価
- Authors: Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung
- Abstract要約: 本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMR(Massive Videos Moment Retrieval)タスクを提案する。
埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連度スコアを算出し、正と負のセットを定義する。
- 参考スコア(独自算出の注目度): 26.669801059308337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosion of multimedia content in recent years, natural language
video localization, which focuses on detecting video moment that matches a
given natural language query, has become a critical problem. However, none of
the previous research explores localizing a moment from a large corpus where
multiple positive and negative videos exist. In this paper, we propose an MVMR
(Massive Videos Moment Retrieval) task, which aims to localize video frames
from a massive set of videos given a text query. For this task, we suggest
methods for constructing datasets by employing similarity filtering on the
existing video localization datasets and introduce three MVMR datasets.
Specifically, we employ embedding-based text similarity matching and
video-language grounding techniques to calculate the relevance score between a
target query and videos to define positive and negative sets. For the proposed
MVMR task, we further develop a strong model, Reliable Mutual Matching Network
(RMMN), which employs a contrastive learning scheme that selectively filters
the reliable and informative negatives leading the model more robust on the
MVMR task. Experimental results on the introduced datasets reveal that existing
NLVL models are easily distracted by negative video frames, whereas our model
shows significant performance.
- Abstract(参考訳): 近年,マルチメディアコンテンツの爆発的な増加に伴い,自然言語検索にマッチする映像モーメントの検出に重点を置く自然言語ビデオのローカライズが問題となっている。
しかし、以前の研究は、複数のポジティブなビデオとネガティブなビデオが存在する大きなコーパスからの瞬間を局所化するものではない。
本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMRタスクを提案する。
そこで本研究では,既存の映像ローカライゼーションデータセットに類似性フィルタリングを適用し,mvmrデータセットを3つ導入する手法を提案する。
具体的には、埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連スコアを計算し、正と負のセットを定義する。
提案したMVMRタスクに対して,MVMRタスクにおいてモデルをより堅牢に導く信頼性および情報的負を選択的にフィルタするコントラスト学習スキームであるReliable Mutual Matching Network (RMMN) をさらに発展させる。
その結果,既存のNLVLモデルは負の映像フレームによって容易に邪魔されるが,本モデルでは高い性能を示した。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance
Enhancement [79.48249428428802]
ビデオコーパスモーメント検索(VCMR)は、未検索ビデオの大規模なコーパスから関連モーメントを検索するための新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,異なるモダリティに適したクエリ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval [20.254815143604777]
ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
このタスクは、ビデオデータセットに固有の視覚・テクスチャアライメントの弱い問題に悩まされる傾向にある。
背景認識型モーメント検出変換器(BM-DETR)を提案する。
本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
論文 参考訳(メタデータ) (2023-06-05T09:26:33Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。