論文の概要: Aligning Moments in Time using Video Queries
- arxiv url: http://arxiv.org/abs/2508.15439v2
- Date: Mon, 01 Sep 2025 05:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.661432
- Title: Aligning Moments in Time using Video Queries
- Title(参考訳): ビデオクエリによる時間内モーメントの調整
- Authors: Yogesh Kumar, Uday Agarwal, Manish Gupta, Anand Mishra,
- Abstract要約: ビデオからビデオまでのモーメント検索 (Vid2VidMR) は、クエリービデオを用いて、未確認のイベントやモーメントをターゲットビデオにローカライズするタスクである。
意味的コンテキストをキャプチャするトランスフォーマーモデルであるMATR(Moment Alignment TRansformer)を紹介する。
また,MATRはR@1で13.1%,mIoUで8.1%の顕著な性能向上を実現している。
- 参考スコア(独自算出の注目度): 9.64582196551555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-video moment retrieval (Vid2VidMR) is the task of localizing unseen events or moments in a target video using a query video. This task poses several challenges, such as the need for semantic frame-level alignment and modeling complex dependencies between query and target videos. To tackle this challenging problem, we introduce MATR (Moment Alignment TRansformer), a transformer-based model designed to capture semantic context as well as the temporal details necessary for precise moment localization. MATR conditions target video representations on query video features using dual-stage sequence alignment that encodes the required correlations and dependencies. These representations are then used to guide foreground/background classification and boundary prediction heads, enabling the model to accurately identify moments in the target video that semantically match with the query video. Additionally, to provide a strong task-specific initialization for MATR, we propose a self-supervised pre-training technique that involves training the model to localize random clips within videos. Extensive experiments demonstrate that MATR achieves notable performance improvements of 13.1% in R@1 and 8.1% in mIoU on an absolute scale compared to state-of-the-art methods on the popular ActivityNet-VRL dataset. Additionally, on our newly proposed dataset, SportsMoments, MATR shows a 14.7% gain in R@1 and a 14.4% gain in mIoU on an absolute scale over strong baselines.
- Abstract(参考訳): ビデオからビデオまでのモーメント検索(Vid2VidMR)は、クエリービデオを用いて、未確認のイベントやモーメントをターゲットビデオにローカライズするタスクである。
このタスクは、セマンティックフレームレベルのアライメントの必要性や、クエリとターゲットビデオ間の複雑な依存関係のモデリングなど、いくつかの課題を引き起こす。
この課題に対処するために,意味的コンテキストをキャプチャするトランスフォーマーモデルMATR(Moment Alignment TRansformer)と,正確なモーメントローカライゼーションに必要な時間的詳細を導入する。
MATR条件は、要求される相関関係と依存関係を符号化した2段階のシーケンスアライメントを用いて、クエリビデオ機能上のビデオ表現をターゲットとする。
これらの表現は、フォアグラウンド/バックグラウンドの分類と境界予測ヘッドをガイドするために使用され、モデルがクエリビデオとセマンティックに一致するターゲットビデオのモーメントを正確に識別することができる。
さらに,MATRのタスク固有初期化を支援するために,ビデオ内のランダムクリップをローカライズするためにモデルをトレーニングする自己教師付き事前学習手法を提案する。
大規模な実験により、MATRは一般的なActivityNet-VRLデータセットの最先端手法と比較して、R@1で13.1%、mIoUで8.1%の顕著なパフォーマンス向上を達成した。
さらに、新たに提案したデータセットであるSportsMomentsでは、MATRがR@1で14.7%、mIoUで14.4%上昇している。
関連論文リスト
- QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。
私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文 参考訳(メタデータ) (2020-09-04T22:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。