論文の概要: DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos
- arxiv url: http://arxiv.org/abs/2505.16376v1
- Date: Thu, 22 May 2025 08:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.149069
- Title: DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos
- Title(参考訳): DeCafNet:長時間ビデオにおける効率的な時間的接地のためのデリゲートとコンバータ
- Authors: Zijia Lu, A S M Iftekhar, Gaurav Mittal, Tianjian Meng, Xiawei Wang, Cheng Zhao, Rohith Kukkala, Ehsan Elhamifar, Mei Chen,
- Abstract要約: Long Video Temporal Groundingは、ユーザが提供するテキストクエリに基づいて、長いビデオ内の特定の瞬間を特定することを目的としている。
ビデオのクリップ分割と、フルスケールのエキスパートエンコーダによる各クリップの処理は、既存の方法ではスケールが難しい。
DeCafNetは、デリゲート・アンド・コンカヤの戦略を利用して、基礎性能を犠牲にすることなく計算効率を向上する手法である。
- 参考スコア(独自算出の注目度): 31.42088612166144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long Video Temporal Grounding (LVTG) aims at identifying specific moments within lengthy videos based on user-provided text queries for effective content retrieval. The approach taken by existing methods of dividing video into clips and processing each clip via a full-scale expert encoder is challenging to scale due to prohibitive computational costs of processing a large number of clips in long videos. To address this issue, we introduce DeCafNet, an approach employing ``delegate-and-conquer'' strategy to achieve computation efficiency without sacrificing grounding performance. DeCafNet introduces a sidekick encoder that performs dense feature extraction over all video clips in a resource-efficient manner, while generating a saliency map to identify the most relevant clips for full processing by the expert encoder. To effectively leverage features from sidekick and expert encoders that exist at different temporal resolutions, we introduce DeCaf-Grounder, which unifies and refines them via query-aware temporal aggregation and multi-scale temporal refinement for accurate grounding. Experiments on two LTVG benchmark datasets demonstrate that DeCafNet reduces computation by up to 47\% while still outperforming existing methods, establishing a new state-of-the-art for LTVG in terms of both efficiency and performance. Our code is available at https://github.com/ZijiaLewisLu/CVPR2025-DeCafNet.
- Abstract(参考訳): Long Video Temporal Grounding (LVTG) は、ユーザが提供するテキストクエリに基づいて、ビデオ中の特定の瞬間を同定し、効果的なコンテンツ検索を実現することを目的としている。
動画をクリップに分割し、フルスケールのエキスパートエンコーダで各クリップを処理するという既存の方法によるアプローチは、長いビデオで大量のクリップを処理するという計算コストが禁じられているため、スケールが難しい。
この問題に対処するため,我々は,「delegate-and-conquer」戦略を用いて,基礎性能を犠牲にすることなく計算効率を向上するアプローチであるDeCafNetを紹介した。
DeCafNetは、リソース効率の良い方法ですべてのビデオクリップに対して高密度な特徴抽出を行うサイドキックエンコーダを導入し、また、専門家エンコーダによる完全処理のための最も関連性の高いクリップを特定するために、サリエンシマップを生成する。
異なる時間分解能に存在するサイドキックやエキスパートエンコーダの機能を効果的に活用するために,クエリ対応の時間的アグリゲーションと,高精度な接地のためのマルチスケール時間的改善によってそれらを統一・洗練するDeCaf-Grounderを導入する。
2つのLTVGベンチマークデータセットの実験では、DeCafNetは計算を最大47倍まで削減し、既存の手法より優れており、効率と性能の両面でLTVGの新たな最先端を確立している。
私たちのコードはhttps://github.com/ZijiaLewisLu/CVPR2025-DeCafNetで公開されています。
関連論文リスト
- Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering [36.94781787191615]
能動モーメント探索(AMDNet)を用いた簡易かつ効果的な手法を提案する。
私たちは、彼らのクエリとセマンティックに一致したビデオモーメントを見つけることを約束しています。
2つの大規模なビデオデータセットの実験は、AMDNetの優位性と効率性を示している。
論文 参考訳(メタデータ) (2025-04-15T07:00:18Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Parameter-free Video Segmentation for Vision and Language Understanding [55.20132267309382]
最小記述長の原理に基づいて,映像を連続的なチャンクに分割するアルゴリズムを提案する。
アルゴリズムは完全にパラメータフリーで、設定された閾値や指定するチャンクの数やサイズを必要としない特徴ベクトルが与えられる。
論文 参考訳(メタデータ) (2025-03-03T05:54:37Z) - RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos [16.916873537450424]
既存の手法は通常、クリップ検索と接地という2つの段階で動作する。
本稿では,長い動画を複数の粒度に処理できる1つのネットワークに,クリップ検索とグラウンドを深く統合したRGNetを提案する。
RGNetは従来の手法を超越し、ロングビデオ時間グラウンド(LVTG)データセットMADとEgo4Dの最先端性能を示す。
論文 参考訳(メタデータ) (2023-12-11T09:12:35Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。