論文の概要: STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2605.13202v1
- Date: Wed, 13 May 2026 08:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.929176
- Title: STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition
- Title(参考訳): STAR:Few-Shot行動認識のためのセマンティック・テンポラル適応表現学習
- Authors: Hongli Liu, Yu Wang, Shengjie Zhao,
- Abstract要約: Few-shot Action Recognition (FSAR) は、少数の注釈付きサンプルから新しいアクションカテゴリを一般化するモデルを必要とする。
視覚言語モデルの進歩にもかかわらず、既存のアプローチは意味的時間的ミスアライメントに悩まされている。
本稿では,セマンティック・テンポラル適応表現学習(STAR)を提案し,セマンティック・アライメント・コンポーネントとテンポラル・アライメント・コンポーネントからなる統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.546777614096424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition (FSAR) requires models to generalize to novel action categories from only a handful of annotated samples. Despite progress with vision-language models, existing approaches still suffer from semantic-temporal misalignment, where static textual prompts fail to capture decisive visual cues that appear sparsely across sequences, and from inadequate modeling of multi-scale temporal dynamics, as short-term discriminative cues and long-range dependencies are often either oversmoothed or fragmented. To address these challenges, we propose Semantic Temporal Adaptive Representation Learning (STAR), a unified framework, consisting of a semantic-alignment component and a temporal-aware component, effectively bridging the semantic and temporal gaps and transferring the sequence modeling capability of Mamba into the FSAR. The semantic alignment module introduces a Temporal Semantic Attention (TSA) mechanism, which performs frame-level cross-modal alignment with textual cues, ensuring fine-grained semantic-temporal consistency. The temporal-aware module incorporates a Semantic Temporal Prototype Refiner (STPR) that integrates semantic-guided Mamba blocks with multi-frequency temporal sampling and bidirectional state-space refinement, yielding semantically aligned prototypes with enhanced discriminative fidelity and temporal consistency. Furthermore, temporally dependent class descriptors derived from large language models (LLMs) provide long-range semantic guidance. Extensive experiments on five FSAR benchmarks demonstrate the consistent superiority of STAR over state-of-the-art methods. For instance, STAR achieves up to 8.1% and 6.7% gains on the SSv2-Full and SSv2-Small datasets under the 1-shot setting, and 7.3% on HMDB51, validating its effectiveness under limited supervision. The code is available at https://github.com/HongliLiu1/STAR-main.
- Abstract(参考訳): Few-shot Action Recognition (FSAR) は、少数の注釈付きサンプルから新しいアクションカテゴリを一般化するモデルを必要とする。
視覚言語モデルの進歩にもかかわらず、既存のアプローチは意味的・時間的ミスアライメントに悩まされており、静的なテキスト的プロンプトは、シーケンス間でスパースに現れる決定的な視覚的キューをキャプチャできない。
これらの課題に対処するために,意味調整コンポーネントと時間認識コンポーネントからなる統合フレームワークであるセマンティック・テンポラル適応表現学習(STAR)を提案し,意味的・時間的ギャップを効果的にブリッジし,Mambaのシーケンスモデリング能力をFSARに転送する。
セマンティックアライメントモジュールはテンポラルセマンティックアテンション(TSA)機構を導入し、フレームレベルのクロスモーダルアライメントをテキストキューと行い、セマンティックアライメントの微粒化を保証する。
時間認識モジュールにはセマンティック・テンポラル・プロトタイプ・リファイナ(STPR)が組み込まれており、セマンティック・テンポラル・プロトタイプ・リファイナ(STPR)は、意味誘導されたマンバブロックと多周波の時間的サンプリングと双方向の状態空間の洗練を統合し、識別的忠実度と時間的整合性を高めたセマンティック・アライメント・プロトタイプを生成する。
さらに,大規模言語モデル(LLM)から派生した時間依存型クラス記述子は,長期的意味指導を提供する。
5つのFSARベンチマークの大規模な実験は、最先端の手法よりもSTARが一貫した優位性を示している。
例えば、STARは1ショット設定でSSv2-FullデータセットとSSv2-Smallデータセットで最大8.1%と6.7%のゲインを獲得し、HMDB51では7.3%を獲得し、その有効性を限定的に検証している。
コードはhttps://github.com/HongliLiu1/STAR-mainで公開されている。
関連論文リスト
- TimeSAF: Towards LLM-Guided Semantic Asynchronous Fusion for Time Series Forecasting [6.1337977581640075]
TimeSAFは階層的非同期融合に基づく新しいフレームワークである。
低レベルの時間的ダイナミクスとの干渉を避けながら、安定的で効率的な意味指導を提供する。
論文 参考訳(メタデータ) (2026-04-14T12:18:00Z) - Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation [58.40817037271021]
DiTTA(Distillation-assisted Test-Time Adaptation)は、ISSモデルをアノテーション付きビデオなしで時間的に認識されたVSSモデルに変換する新しいフレームワークである。
完全教師付きVSS法と比較して,DITTAの有効性を示す。
論文 参考訳(メタデータ) (2026-04-13T03:47:08Z) - MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection [94.12444452690329]
本稿では,長距離モデリングとグローバル機能検出機能を導入した新しい状態空間TADモデルであるMambaTADを提案する。
MambaTADは、複数の公開ベンチマークで一貫して優れたTAD性能を達成する。
論文 参考訳(メタデータ) (2025-11-22T06:04:29Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph [28.536724593429398]
TEn-CATGは、セマンティックキャリブレーションとカテゴリー対応の時間的推論を組み合わせたテキスト強化AVVPフレームワークである。
弱教師付きAVVPタスクにおいて,TEn-CATGは複雑な時間的および意味的依存関係を捕捉する堅牢性と優れた能力を実現する。
論文 参考訳(メタデータ) (2025-09-04T10:32:40Z) - Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting [12.591771385493509]
汎用ロバストネス・時間予測のためのビジョン・ファンデーション・モデル(VFM)を体系的に再プログラミングするフレームワークであるtextST-VFMを提案する。
このフレームワークは、生の入力と補助的なSTフローを統合し、フローは動的キューとして解釈可能な軽量の時間差信号を符号化する。
Emphpre-VFMリプログラミングでは、Temporal-Aware Tokenを使用して、両方のブランチをVFM互換の機能空間に整列させる。
emphpost-VFMリプログラミングでは、分岐間の動的相互作用を可能にするバイラテラルクロスプロンプトコーディネートモジュールが導入されている。
論文 参考訳(メタデータ) (2025-07-14T08:33:34Z) - Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。