論文の概要: Sparse-Dense Side-Tuner for efficient Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2507.07744v1
- Date: Thu, 10 Jul 2025 13:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.415782
- Title: Sparse-Dense Side-Tuner for efficient Video Temporal Grounding
- Title(参考訳): Sparse-Dense Side-Tuner for efficient Video Temporal Grounding
- Authors: David Pujol-Perich, Sergio Escalera, Albert Clapés,
- Abstract要約: Video Temporal Grounding (VTG)は、テキストクエリに基づくMoment Retrieval (MR)とHighlight Detection (HD)を含む。
VTGのための最初のアンカーフリーSTアーキテクチャであるSparse-Dense Side-Tuner (SDST)を提案する。
我々はまた、変形可能な注意のコンテキストモデリングを強化する新しいメカニズムである、参照ベースの変形可能な自己注意(Deformable Self-Attention)についても紹介する。
- 参考スコア(独自算出の注目度): 32.35611853688068
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video Temporal Grounding (VTG) involves Moment Retrieval (MR) and Highlight Detection (HD) based on textual queries. For this, most methods rely solely on final-layer features of frozen large pre-trained backbones, limiting their adaptability to new domains. While full fine-tuning is often impractical, parameter-efficient fine-tuning -- and particularly side-tuning (ST) -- has emerged as an effective alternative. However, prior ST approaches this problem from a frame-level refinement perspective, overlooking the inherent sparse nature of MR. To address this, we propose the Sparse-Dense Side-Tuner (SDST), the first anchor-free ST architecture for VTG. We also introduce the Reference-based Deformable Self-Attention, a novel mechanism that enhances the context modeling of the deformable attention -- a key limitation of existing anchor-free methods. Additionally, we present the first effective integration of InternVideo2 backbone into an ST framework, showing its profound implications in performance. Overall, our method significantly improves existing ST methods, achieving highly competitive or SOTA results on QVHighlights, TACoS, and Charades-STA, while reducing up to a 73% the parameter count w.r.t. the existing SOTA methods. The code is publicly accessible at https://github.com/davidpujol/SDST.
- Abstract(参考訳): Video Temporal Grounding (VTG)は、テキストクエリに基づくMoment Retrieval (MR)とHighlight Detection (HD)を含む。
このため、ほとんどのメソッドは、凍結した大きなトレーニング済みのバックボーンの最終層機能のみに依存し、新しいドメインへの適応性を制限する。
完全な微調整は現実的ではないことが多いが、パラメータ効率の良い微調整(特にサイドチューニング(ST))が効果的な代替手段として現れている。
しかし, 従来のSTでは, MRのスパース性を見極め, フレームレベルの改善の観点からこの問題にアプローチする。この問題に対処するために, VTG 用の最初のアンカーフリー ST アーキテクチャである Sparse-Dense Side-Tuner (SDST) を提案する。
また、既存のアンカーフリーメソッドの重要な制限である、変形不能アテンションのコンテキストモデリングを強化する新しいメカニズムであるReference-based Deformable Self-Attentionを紹介します。
さらに、InternVideo2のバックボーンをSTフレームワークに統合し、パフォーマンスに大きな影響を与えることを示す。
提案手法は既存のST法を大幅に改善し,QVHighlights,TACoS,Charades-STAに対して高い競合性またはSOTA結果を得るとともに,既存のSOTA法と比較して最大73%のパラメータ数を削減した。
コードはhttps://github.com/davidpujol/SDSTで公開されている。
関連論文リスト
- Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。
我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文 参考訳(メタデータ) (2025-01-15T05:00:03Z) - FlashVTG: Feature Layering and Adaptive Score Handling Network for Video Temporal Grounding [25.21011724370177]
テキスト誘導ビデオ時間グラウンド(VTG)は、テキスト記述に基づいて、関連セグメントを未編集ビデオにローカライズすることを目的としている。
本稿では,TFL(Temporal Feature Layering)モジュールとASR(Adaptive Score Refinement)モジュールを備えたフレームワークであるFlashVTGを紹介する。
FlashVTGは、Moment Retrieval(MR)とHighlight Detection(HD)の両方で広く採用されている4つのデータセット上で、最先端のパフォーマンスを達成する
論文 参考訳(メタデータ) (2024-12-18T02:23:33Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。