論文の概要: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for
Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2312.01431v1
- Date: Sun, 3 Dec 2023 15:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:18:48.698195
- Title: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for
Few-shot Action Recognition
- Title(参考訳): d$^2$st-adapter : 数発動作認識のための異方性と変形可能な時空間アダプター
- Authors: Wenjie Pei, Qizhong Tan, Guangming Lu, Jiandong Tian
- Abstract要約: D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter, D$2$ST-Adapter) は、数発のアクション認識のための新しいアダプタフレームワークである。
本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
- 参考スコア(独自算出の注目度): 65.27285089305845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large pre-trained image models to few-shot action recognition has
proven to be an effective and efficient strategy for learning robust feature
extractors, which is essential for few-shot learning. Typical fine-tuning based
adaptation paradigm is prone to overfitting in the few-shot learning scenarios
and offers little modeling flexibility for learning temporal features in video
data. In this work we present the Disentangled-and-Deformable Spatio-Temporal
Adapter (D$^2$ST-Adapter), a novel adapter tuning framework for few-shot action
recognition, which is designed in a dual-pathway architecture to encode spatial
and temporal features in a disentangled manner. Furthermore, we devise the
Deformable Spatio-Temporal Attention module as the core component of
D$^2$ST-Adapter, which can be tailored to model both spatial and temporal
features in corresponding pathways, allowing our D$^2$ST-Adapter to encode
features in a global view in 3D spatio-temporal space while maintaining a
lightweight design. Extensive experiments with instantiations of our method on
both pre-trained ResNet and ViT demonstrate the superiority of our method over
state-of-the-art methods for few-shot action recognition. Our method is
particularly well-suited to challenging scenarios where temporal dynamics are
critical for action recognition.
- Abstract(参考訳): 大規模な事前学習された画像モデルを数発のアクション認識に適用することは、頑健な特徴抽出器を学習するための効果的かつ効率的な戦略であることが証明されている。
典型的な微調整に基づく適応パラダイムは、少数の学習シナリオにおいて過剰に適合しがちであり、ビデオデータの時間的特徴を学習するためのモデリング柔軟性がほとんどない。
本研究では,空間的特徴と時間的特徴をアンタングル的に符号化するデュアルパスアーキテクチャで設計された,小ショット動作認識のための新しいアダプタチューニングフレームワークであるDisentangled-and-Deformable Spatio-Temporal Adapter(D$^2$ST-Adapter)を提案する。
さらに、D$^2$ST-AdapterのコアコンポーネントとしてDeformable Spatio-Temporal Attentionモジュールを考案し、対応する経路における空間的特徴と時間的特徴の両方をモデル化し、軽量な設計を維持しながら、グローバルな3次元時空間における特徴のエンコードを可能にする。
プレトレーニングされたResNetとViTの両方における本手法のインスタンス化による広範囲な実験は、数発のアクション認識のための最先端の手法よりも優れていることを示す。
本手法は,時間的ダイナミクスが行動認識に重要なシナリオに特に適している。
関連論文リスト
- Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles [0.0]
本研究は,映像コンテンツの検証に革新的なアプローチを提案する。
この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。
実験による検証は、この戦略の有効性を強調し、ディープフェイクの発生に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-10-25T06:00:37Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Multimodal Adaptation of CLIP for Few-Shot Action Recognition [42.88862774719768]
本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
私たちが設計したアダプタは、タスク指向の時間的モデリングのためのビデオテキストソースからの情報を組み合わせることができる。
当社のMA-CLIPはプラグイン・アンド・プレイであり、様々な数発のアクション認識時間的アライメントメトリックで使用することができる。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - Exploring Temporal Coherence for More General Video Face Forgery
Detection [22.003901822221227]
本稿では,2つの主要な段階からなる新しいエンドツーエンドフレームワークを提案する。
第1段階は、時間的畳み込みネットワーク(FTCN)であり、時間的畳み込みカーネルのサイズは変化しない。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
論文 参考訳(メタデータ) (2021-08-15T08:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。