論文の概要: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2312.01431v3
- Date: Sat, 20 Apr 2024 14:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:13:26.524741
- Title: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition
- Title(参考訳): D$^2$ST-Adapter:Few-shot行動認識のための不整形と変形可能な時空間適応器
- Authors: Wenjie Pei, Qizhong Tan, Guangming Lu, Jiandong Tian,
- Abstract要約: 大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
- 参考スコア(独自算出の注目度): 60.84084172829169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large pre-trained image models to few-shot action recognition has proven to be an effective and efficient strategy for learning robust feature extractors, which is essential for few-shot learning. Typical fine-tuning based adaptation paradigm is prone to overfitting in the few-shot learning scenarios and offers little modeling flexibility for learning temporal features in video data. In this work we present the Disentangled-and-Deformable Spatio-Temporal Adapter (D$^2$ST-Adapter), which is a novel adapter tuning framework well-suited for few-shot action recognition due to lightweight design and low parameter-learning overhead. It is designed in a dual-pathway architecture to encode spatial and temporal features in a disentangled manner. In particular, we devise the anisotropic Deformable Spatio-Temporal Attention module as the core component of D$^2$ST-Adapter, which can be tailored with anisotropic sampling densities along spatial and temporal domains to learn spatial and temporal features specifically in corresponding pathways, allowing our D$^2$ST-Adapter to encode features in a global view in 3D spatio-temporal space while maintaining a lightweight design. Extensive experiments with instantiations of our method on both pre-trained ResNet and ViT demonstrate the superiority of our method over state-of-the-art methods for few-shot action recognition. Our method is particularly well-suited to challenging scenarios where temporal dynamics are critical for action recognition.
- Abstract(参考訳): 大規模な事前学習された画像モデルを数発のアクション認識に適応させることは、数発の学習に不可欠である頑健な特徴抽出器を学習する上で、効果的かつ効率的な戦略であることが証明されている。
典型的な微調整ベースの適応パラダイムは、数ショットの学習シナリオで過度に適合する傾向があり、ビデオデータの時間的特徴を学習するためのモデリングの柔軟性がほとんどない。
本研究では,D$^2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter, D$^2$ST-Adapter) を提案する。
空間的特徴と時間的特徴を絡み合った方法で符号化するデュアルパスアーキテクチャで設計されている。
特に,D$^2$ST-Adapterのコアコンポーネントとして異方性変形型時空間アテンションモジュールを考案し,空間的および時間的領域に沿って異方性サンプリング密度を調整し,対応する経路で特に空間的・時間的特徴を学習し,D$^2$ST-Adapterにより3次元時空間のグローバルな視野における特徴を符号化し,軽量な設計を維持した。
プレトレーニングされたResNetとViTの両方における本手法のインスタンス化による広範囲な実験は、数発のアクション認識のための最先端の手法よりも、本手法が優れていることを示す。
本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
関連論文リスト
- Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Exploring Temporal Coherence for More General Video Face Forgery
Detection [22.003901822221227]
本稿では,2つの主要な段階からなる新しいエンドツーエンドフレームワークを提案する。
第1段階は、時間的畳み込みネットワーク(FTCN)であり、時間的畳み込みカーネルのサイズは変化しない。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
論文 参考訳(メタデータ) (2021-08-15T08:45:37Z) - Adaptive Latent Space Tuning for Non-Stationary Distributions [62.997667081978825]
本稿では,ディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。
粒子加速器における時間変動荷電粒子ビームの特性を予測するためのアプローチを実証する。
論文 参考訳(メタデータ) (2021-05-08T03:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。