論文の概要: OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning
- arxiv url: http://arxiv.org/abs/2408.06158v1
- Date: Mon, 12 Aug 2024 13:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:05:56.892592
- Title: OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning
- Title(参考訳): OmniCLIP:空間時間オムニスケール特徴学習による映像認識のためのCLIP適応
- Authors: Mushui Liu, Bozheng Li, Yunlong Yu,
- Abstract要約: 本稿では,空間的,時間的,動的空間時間的スケールを含む包括的特徴を学習することに着目し,CLIPを映像認識に適用するフレームワークを提案する。
我々は、教師付きビデオ認識、少数ショットビデオ認識、ゼロショット認識タスクにおいて広範な実験を行った。
提案手法の有効性を実証し,特にOmniCLIPは16ショット設定でHMDB51で74.30%の精度でトップ1の精度を達成した。
- 参考スコア(独自算出の注目度): 8.707819647492467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision-Language Models (VLMs) \textit{e.g.} CLIP have made great progress in video recognition. Despite the improvement brought by the strong visual backbone in extracting spatial features, CLIP still falls short in capturing and integrating spatial-temporal features which is essential for video recognition. In this paper, we propose OmniCLIP, a framework that adapts CLIP for video recognition by focusing on learning comprehensive features encompassing spatial, temporal, and dynamic spatial-temporal scales, which we refer to as omni-scale features. This is achieved through the design of spatial-temporal blocks that include parallel temporal adapters (PTA), enabling efficient temporal modeling. Additionally, we introduce a self-prompt generator (SPG) module to capture dynamic object spatial features. The synergy between PTA and SPG allows OmniCLIP to discern varying spatial information across frames and assess object scales over time. We have conducted extensive experiments in supervised video recognition, few-shot video recognition, and zero-shot recognition tasks. The results demonstrate the effectiveness of our method, especially with OmniCLIP achieving a top-1 accuracy of 74.30\% on HMDB51 in a 16-shot setting, surpassing the recent MotionPrompt approach even with full training data. The code is available at \url{https://github.com/XiaoBuL/OmniCLIP}.
- Abstract(参考訳): 近年の視覚言語モデル (VLMs) \textit{e g } CLIPはビデオ認識において大きな進歩を遂げている。
空間的特徴の抽出に強い視覚的バックボーンがもたらす改善にもかかわらず、CLIPはビデオ認識に不可欠な空間的特徴の捕捉と統合に不足している。
本稿では,OmniCLIPを提案する。OmniCLIPは,空間的・時間的・時間的・時間的・時間的・時間的・時間的・時間的・時間的を包含する包括的特徴を学習することで,CLIPをビデオ認識に適用するフレームワークである。
これは、並列時間適応器(PTA)を含む空間時間ブロックの設計によって実現され、効率的な時間的モデリングを可能にする。
さらに,動的オブジェクト空間の特徴を捉えるために,自己プロンプトジェネレータ(SPG)モジュールを導入する。
PTAとSPGの相乗効果により、OmniCLIPはフレーム間で異なる空間情報を識別し、時間とともにオブジェクトのスケールを評価することができる。
我々は、教師付きビデオ認識、少数ショットビデオ認識、ゼロショット認識タスクにおいて広範な実験を行った。
その結果,本手法の有効性,特にOmniCLIPが16ショットでHMDB51で74.30%の精度でトップ1の精度を達成し,総合的なトレーニングデータにおいても最新のMotionPromptアプローチを上回った。
コードは \url{https://github.com/XiaoBuL/OmniCLIP} で公開されている。
関連論文リスト
- When Spatial meets Temporal in Action Recognition [34.53091498930863]
本稿では、時間情報を組み込んだ新しい前処理技術であるTIME(Temporal Integration and Motion Enhancement)について紹介する。
TIME層は、元のシーケンスを再構成し、時間順を保ちながら、時間的に進化するフレームを1つの空間グリッドに埋め込むことにより、新しいビデオフレームを生成する。
実験の結果,TIME層は認識精度を高め,映像処理タスクに有用な洞察を提供することがわかった。
論文 参考訳(メタデータ) (2024-11-22T16:39:45Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Orthogonal Temporal Interpolation for Zero-Shot Video Recognition [45.53856045374685]
ゼロショットビデオ認識(ゼロショットビデオ認識、ZSVR)は、モデルトレーニングプロセス中に見たことのないビデオカテゴリの認識を目的としたタスクである。
近年の視覚言語モデル (VLM) は, 大規模画像テキストペアで事前訓練されている。
論文 参考訳(メタデータ) (2023-08-14T02:26:49Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。