Fugu-MT 論文翻訳(概要): D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition

論文の概要: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition

arxiv url: http://arxiv.org/abs/2312.01431v1
Date: Sun, 3 Dec 2023 15:40:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 17:18:48.698195
Title: D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition
Title（参考訳）: d$^2$st-adapter : 数発動作認識のための異方性と変形可能な時空間アダプター
Authors: Wenjie Pei, Qizhong Tan, Guangming Lu, Jiandong Tian
Abstract要約: D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter, D$2$ST-Adapter) は、数発のアクション認識のための新しいアダプタフレームワークである。本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
参考スコア（独自算出の注目度）: 65.27285089305845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adapting large pre-trained image models to few-shot action recognition has proven to be an effective and efficient strategy for learning robust feature extractors, which is essential for few-shot learning. Typical fine-tuning based adaptation paradigm is prone to overfitting in the few-shot learning scenarios and offers little modeling flexibility for learning temporal features in video data. In this work we present the Disentangled-and-Deformable Spatio-Temporal Adapter (D$^2$ST-Adapter), a novel adapter tuning framework for few-shot action recognition, which is designed in a dual-pathway architecture to encode spatial and temporal features in a disentangled manner. Furthermore, we devise the Deformable Spatio-Temporal Attention module as the core component of D$^2$ST-Adapter, which can be tailored to model both spatial and temporal features in corresponding pathways, allowing our D$^2$ST-Adapter to encode features in a global view in 3D spatio-temporal space while maintaining a lightweight design. Extensive experiments with instantiations of our method on both pre-trained ResNet and ViT demonstrate the superiority of our method over state-of-the-art methods for few-shot action recognition. Our method is particularly well-suited to challenging scenarios where temporal dynamics are critical for action recognition.
Abstract（参考訳）: 大規模な事前学習された画像モデルを数発のアクション認識に適用することは、頑健な特徴抽出器を学習するための効果的かつ効率的な戦略であることが証明されている。典型的な微調整に基づく適応パラダイムは、少数の学習シナリオにおいて過剰に適合しがちであり、ビデオデータの時間的特徴を学習するためのモデリング柔軟性がほとんどない。本研究では,空間的特徴と時間的特徴をアンタングル的に符号化するデュアルパスアーキテクチャで設計された,小ショット動作認識のための新しいアダプタチューニングフレームワークであるDisentangled-and-Deformable Spatio-Temporal Adapter(D$^2$ST-Adapter)を提案する。さらに、D$^2$ST-AdapterのコアコンポーネントとしてDeformable Spatio-Temporal Attentionモジュールを考案し、対応する経路における空間的特徴と時間的特徴の両方をモデル化し、軽量な設計を維持しながら、グローバルな3次元時空間における特徴のエンコードを可能にする。プレトレーニングされたResNetとViTの両方における本手法のインスタンス化による広範囲な実験は、数発のアクション認識のための最先端の手法よりも優れていることを示す。本手法は,時間的ダイナミクスが行動認識に重要なシナリオに特に適している。

関連論文リスト

EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。 EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (2025-06-17T09:51:51Z)
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文参考訳（メタデータ） (2024-07-03T10:42:09Z)
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文参考訳（メタデータ） (2024-05-31T21:47:05Z)
Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。 textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。 SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文参考訳（メタデータ） (2024-03-02T08:18:57Z)
Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles [0.0]
本研究は,映像コンテンツの検証に革新的なアプローチを提案する。この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。実験による検証は、この戦略の有効性を強調し、ディープフェイクの発生に対処する可能性を示している。
論文参考訳（メタデータ） (2023-10-25T06:00:37Z)
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文参考訳（メタデータ） (2023-10-02T16:41:20Z)
Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。 DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。 5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文参考訳（メタデータ） (2023-09-14T17:58:33Z)
Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-04-27T12:16:44Z)
Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文参考訳（メタデータ） (2023-03-17T09:37:07Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文参考訳（メタデータ） (2022-08-01T15:56:19Z)
Exploring Temporal Coherence for More General Video Face Forgery Detection [22.003901822221227]
本稿では,2つの主要な段階からなる新しいエンドツーエンドフレームワークを提案する。第1段階は、時間的畳み込みネットワーク(FTCN)であり、時間的畳み込みカーネルのサイズは変化しない。第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
論文参考訳（メタデータ） (2021-08-15T08:45:37Z)
Adaptive Latent Space Tuning for Non-Stationary Distributions [62.997667081978825]
本稿では,ディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。粒子加速器における時間変動荷電粒子ビームの特性を予測するためのアプローチを実証する。
論文参考訳（メタデータ） (2021-05-08T03:50:45Z)
STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。 STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文参考訳（メタデータ） (2020-03-18T04:46:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。