論文の概要: Faster Video Moment Retrieval with Point-Level Supervision
- arxiv url: http://arxiv.org/abs/2305.14017v1
- Date: Tue, 23 May 2023 12:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:19:53.693408
- Title: Faster Video Moment Retrieval with Point-Level Supervision
- Title(参考訳): ポイントレベルスーパービジョンによる高速ビデオモーメント検索
- Authors: Xun Jiang, Zailei Zhou, Xing Xu, Yang Yang, Guoqing Wang, Heng Tao
Shen
- Abstract要約: Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 70.51822333023145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Moment Retrieval (VMR) aims at retrieving the most relevant events from
an untrimmed video with natural language queries. Existing VMR methods suffer
from two defects: (1) massive expensive temporal annotations are required to
obtain satisfying performance; (2) complicated cross-modal interaction modules
are deployed, which lead to high computational cost and low efficiency for the
retrieval process. To address these issues, we propose a novel method termed
Cheaper and Faster Moment Retrieval (CFMR), which well balances the retrieval
accuracy, efficiency, and annotation cost for VMR. Specifically, our proposed
CFMR method learns from point-level supervision where each annotation is a
single frame randomly located within the target moment. It is 6 times cheaper
than the conventional annotations of event boundaries. Furthermore, we also
design a concept-based multimodal alignment mechanism to bypass the usage of
cross-modal interaction modules during the inference process, remarkably
improving retrieval efficiency. The experimental results on three widely used
VMR benchmarks demonstrate the proposed CFMR method establishes new
state-of-the-art with point-level supervision. Moreover, it significantly
accelerates the retrieval speed with more than 100 times FLOPs compared to
existing approaches with point-level supervision.
- Abstract(参考訳): Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のvmrメソッドには2つの欠陥がある: (1) 性能を満たすために大量の高価な時空アノテーションが必要; (2) 複雑なクロスモーダルインタラクションモジュールがデプロイされ、高い計算コストと検索プロセスの効率が低下する。
これらの問題に対処するため,我々は,VMRの検索精度,効率,アノテーションコストのバランスをとるCFMR (Cheaper and Faster Moment Retrieval) という新しい手法を提案する。
特に,提案手法は,各アノテーションが対象モーメント内にランダムに配置された単一フレームである点レベルの監督から学習する。
従来のイベント境界アノテーションの6倍のコストがかかる。
さらに,概念に基づくマルチモーダルアライメント機構も設計し,推定過程におけるクロスモーダルインタラクションモジュールの使用を回避し,検索効率を向上させる。
広範に使用されている3つのVMRベンチマーク実験の結果,提案手法は点レベルの監督を伴う新しい最先端技術を確立する。
さらに,従来の点レベルの監視手法と比較して,100倍以上のFLOPで検索速度を大幅に高速化する。
関連論文リスト
- Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。