論文の概要: Spatio-temporal Decoupled Knowledge Compensator for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2602.18043v1
- Date: Fri, 20 Feb 2026 07:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.260954
- Title: Spatio-temporal Decoupled Knowledge Compensator for Few-Shot Action Recognition
- Title(参考訳): Few-Shot行動認識のための時空間分離型知識補償器
- Authors: Hongyu Qu, Xiangbo Shu, Rui Yan, Hailiang Gao, Wenguan Wang, Jinhui Tang,
- Abstract要約: Few-Shot Action Recognition (FSAR)は、新しいアクションカテゴリをラベル付きビデオで認識する必要がある課題である。
近年の研究では、識別的視覚的特徴の学習を導くために、意味的に粗いカテゴリ名を補助的な文脈として適用している。
本稿では,空間的知識を疎結合に利用したFSARの革新的脱包フレームワークであるDiSTを提案する。
- 参考スコア(独自算出の注目度): 92.22104713961431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Action Recognition (FSAR) is a challenging task that requires recognizing novel action categories with a few labeled videos. Recent works typically apply semantically coarse category names as auxiliary contexts to guide the learning of discriminative visual features. However, such context provided by the action names is too limited to provide sufficient background knowledge for capturing novel spatial and temporal concepts in actions. In this paper, we propose DiST, an innovative Decomposition-incorporation framework for FSAR that makes use of decoupled Spatial and Temporal knowledge provided by large language models to learn expressive multi-granularity prototypes. In the decomposition stage, we decouple vanilla action names into diverse spatio-temporal attribute descriptions (action-related knowledge). Such commonsense knowledge complements semantic contexts from spatial and temporal perspectives. In the incorporation stage, we propose Spatial/Temporal Knowledge Compensators (SKC/TKC) to discover discriminative object-level and frame-level prototypes, respectively. In SKC, object-level prototypes adaptively aggregate important patch tokens under the guidance of spatial knowledge. Moreover, in TKC, frame-level prototypes utilize temporal attributes to assist in inter-frame temporal relation modeling. These learned prototypes thus provide transparency in capturing fine-grained spatial details and diverse temporal patterns. Experimental results show DiST achieves state-of-the-art results on five standard FSAR datasets.
- Abstract(参考訳): Few-Shot Action Recognition (FSAR)は、新しいアクションカテゴリをラベル付きビデオで認識する必要がある課題である。
近年の研究では、識別的視覚的特徴の学習を導くために、意味的に粗いカテゴリ名を補助的な文脈として適用している。
しかし、アクション名が提供するそのような文脈は、アクションにおける新しい空間的・時間的概念を捉えるのに十分な背景知識を提供するにはあまりにも限られている。
本稿では,大言語モデルによる空間的・時間的知識の分離を利用して,表現力のある多粒性プロトタイプを学習するFSARの革新的な分解-組込みフレームワークであるDiSTを提案する。
分解段階では,バニラ行動名を多様な時空間属性記述(行動関連知識)に分離する。
このような常識的知識は、空間的・時間的視点から意味的文脈を補完する。
組込み段階では,識別対象レベルとフレームレベルのプロトタイプをそれぞれ発見するための空間的/時間的知識補償器(SKC/TKC)を提案する。
SKCでは、オブジェクトレベルのプロトタイプが空間知識の指導の下で重要なパッチトークンを適応的に集約する。
さらに、TKCでは、フレームレベルのプロトタイプが時間属性を利用してフレーム間の時間関係モデリングを支援する。
これらの学習されたプロトタイプは、微細な空間的詳細と多様な時間的パターンをキャプチャする透明性を提供する。
実験結果から、DiSTは5つの標準FSARデータセットに対して最先端の結果を得ることができた。
関連論文リスト
- StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。
また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。
実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-27T05:33:18Z) - CSTA: Spatial-Temporal Causal Adaptive Learning for Exemplar-Free Video Class-Incremental Learning [62.69917996026769]
クラスインクリメンタルな学習課題は、空間的外観と時間的行動の関与の両方を学習し、保存することを必要とする。
本稿では,各クラス固有のインクリメンタル情報要件を調整し,新しいクラスパターンを学習するためのアダプタを分離するフレームワークを提案する。
異なる種類の情報間のインクリメントと記憶の衝突を減らすために,因果補償機構を提案する。
論文 参考訳(メタデータ) (2025-01-13T11:34:55Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Spatio-Temporal Analysis of Facial Actions using Lifecycle-Aware Capsule
Networks [12.552355581481994]
AULA-Capsは、シーケンス内の関連する時間的セグメントに注目して、連続したフレーム間で学習する。
学習した特徴カプセルは、AUライフサイクルに応じて、空間的または時間的情報に選択的に集中するようにルーティングされる。
提案モデルはBP4DおよびGFTベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-17T18:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。