論文の概要: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for
Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2312.01431v1
- Date: Sun, 3 Dec 2023 15:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:18:48.698195
- Title: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for
Few-shot Action Recognition
- Title(参考訳): d$^2$st-adapter : 数発動作認識のための異方性と変形可能な時空間アダプター
- Authors: Wenjie Pei, Qizhong Tan, Guangming Lu, Jiandong Tian
- Abstract要約: D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter, D$2$ST-Adapter) は、数発のアクション認識のための新しいアダプタフレームワークである。
本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
- 参考スコア(独自算出の注目度): 65.27285089305845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large pre-trained image models to few-shot action recognition has
proven to be an effective and efficient strategy for learning robust feature
extractors, which is essential for few-shot learning. Typical fine-tuning based
adaptation paradigm is prone to overfitting in the few-shot learning scenarios
and offers little modeling flexibility for learning temporal features in video
data. In this work we present the Disentangled-and-Deformable Spatio-Temporal
Adapter (D$^2$ST-Adapter), a novel adapter tuning framework for few-shot action
recognition, which is designed in a dual-pathway architecture to encode spatial
and temporal features in a disentangled manner. Furthermore, we devise the
Deformable Spatio-Temporal Attention module as the core component of
D$^2$ST-Adapter, which can be tailored to model both spatial and temporal
features in corresponding pathways, allowing our D$^2$ST-Adapter to encode
features in a global view in 3D spatio-temporal space while maintaining a
lightweight design. Extensive experiments with instantiations of our method on
both pre-trained ResNet and ViT demonstrate the superiority of our method over
state-of-the-art methods for few-shot action recognition. Our method is
particularly well-suited to challenging scenarios where temporal dynamics are
critical for action recognition.
- Abstract(参考訳): 大規模な事前学習された画像モデルを数発のアクション認識に適用することは、頑健な特徴抽出器を学習するための効果的かつ効率的な戦略であることが証明されている。
典型的な微調整に基づく適応パラダイムは、少数の学習シナリオにおいて過剰に適合しがちであり、ビデオデータの時間的特徴を学習するためのモデリング柔軟性がほとんどない。
本研究では,空間的特徴と時間的特徴をアンタングル的に符号化するデュアルパスアーキテクチャで設計された,小ショット動作認識のための新しいアダプタチューニングフレームワークであるDisentangled-and-Deformable Spatio-Temporal Adapter(D$^2$ST-Adapter)を提案する。
さらに、D$^2$ST-AdapterのコアコンポーネントとしてDeformable Spatio-Temporal Attentionモジュールを考案し、対応する経路における空間的特徴と時間的特徴の両方をモデル化し、軽量な設計を維持しながら、グローバルな3次元時空間における特徴のエンコードを可能にする。
プレトレーニングされたResNetとViTの両方における本手法のインスタンス化による広範囲な実験は、数発のアクション認識のための最先端の手法よりも優れていることを示す。
本手法は,時間的ダイナミクスが行動認識に重要なシナリオに特に適している。
関連論文リスト
- Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Exploring Temporal Coherence for More General Video Face Forgery
Detection [22.003901822221227]
本稿では,2つの主要な段階からなる新しいエンドツーエンドフレームワークを提案する。
第1段階は、時間的畳み込みネットワーク(FTCN)であり、時間的畳み込みカーネルのサイズは変化しない。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
論文 参考訳(メタデータ) (2021-08-15T08:45:37Z) - Adaptive Latent Space Tuning for Non-Stationary Distributions [62.997667081978825]
本稿では,ディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。
粒子加速器における時間変動荷電粒子ビームの特性を予測するためのアプローチを実証する。
論文 参考訳(メタデータ) (2021-05-08T03:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。