論文の概要: Distinguishing Visually Similar Actions: Prompt-Guided Semantic Prototype Modulation for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2512.19036v1
- Date: Mon, 22 Dec 2025 05:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.626928
- Title: Distinguishing Visually Similar Actions: Prompt-Guided Semantic Prototype Modulation for Few-Shot Action Recognition
- Title(参考訳): 視覚的に類似した行動の識別--プロンプト誘導セマンティック・プロトタイプによるFew-Shot行動認識
- Authors: Xiaoyang Li, Mingming Lu, Ruiqi Wang, Hao Li, Zewei Le,
- Abstract要約: 少数のアクション認識は、限定されたラベル付きサンプルからモデルが新しいアクションカテゴリを素早く学習できるようにすることを目的としている。
本稿では、時間的モデリングと視覚的類似性の課題に対処する3つのコンポーネントを含むCLIP-SPMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.527513690285364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition aims to enable models to quickly learn new action categories from limited labeled samples, addressing the challenge of data scarcity in real-world applications. Current research primarily addresses three core challenges: (1) temporal modeling, where models are prone to interference from irrelevant static background information and struggle to capture the essence of dynamic action features; (2) visual similarity, where categories with subtle visual differences are difficult to distinguish; and (3) the modality gap between visual-textual support prototypes and visual-only queries, which complicates alignment within a shared embedding space. To address these challenges, this paper proposes a CLIP-SPM framework, which includes three components: (1) the Hierarchical Synergistic Motion Refinement (HSMR) module, which aligns deep and shallow motion features to improve temporal modeling by reducing static background interference; (2) the Semantic Prototype Modulation (SPM) strategy, which generates query-relevant text prompts to bridge the modality gap and integrates them with visual features, enhancing the discriminability between similar actions; and (3) the Prototype-Anchor Dual Modulation (PADM) method, which refines support prototypes and aligns query features with a global semantic anchor, improving consistency across support and query samples. Comprehensive experiments across standard benchmarks, including Kinetics, SSv2-Full, SSv2-Small, UCF101, and HMDB51, demonstrate that our CLIP-SPM achieves competitive performance under 1-shot, 3-shot, and 5-shot settings. Extensive ablation studies and visual analyses further validate the effectiveness of each component and its contributions to addressing the core challenges. The source code and models are publicly available at GitHub.
- Abstract(参考訳): Few-shotアクション認識は、モデルが限られたラベル付きサンプルから新しいアクションカテゴリを素早く学習できるようにすることを目的としており、現実世界のアプリケーションにおけるデータ不足の課題に対処している。
本研究は,(1)非関連な静的背景情報からの干渉や動的行動特徴の本質の把握に苦しむ時間モデル,(2)微妙な視覚的差異を持つカテゴリの識別が困難である視覚的類似性,(3)視覚的テキスト支援プロトタイプと視覚的のみのクエリのモダリティギャップ,の3つの課題に対処する。
これらの課題に対処するため,1) 静的な背景干渉を低減して時間的モデリングを改善するために深部および浅部動作特徴を整列する階層的シナジスティック・モーション・リファインメント (HSMR) モジュール,2) クエリ関連テキストプロンプトを生成するセマンティック・プロトタイプ・モジュレーション (SPM) 戦略, 類似した動作間の識別性の向上, (3) クエリ機能とグローバルなセマンティック・アンカーとの整合性向上, およびクエリ・サンプル間の整合性向上のためのセマンティック・プロトタイプ・モジュアライゼーション (SPM) 戦略を含むCLIP-SPM フレームワークを提案する。
Kinetics, SSv2-Full, SSv2-Small, UCF101, HMDB51など,標準ベンチマークの総合的な実験により, 当社のCLIP-SPMが1ショット, 3ショット, 5ショット設定で競合性能を達成できることが実証された。
広範囲にわたるアブレーション研究と視覚分析により、各コンポーネントの有効性と、そのコア課題への対処への貢献がさらに検証される。
ソースコードとモデルはGitHubで公開されている。
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Representation-Centric Survey of Skeletal Action Recognition and the ANUBIS Benchmark [43.00059447663327]
3Dスケルトンに基づく人間の行動認識は、従来のRGBや深さに基づくアプローチの強力な代替手段として登場した。
目覚ましい進歩にもかかわらず、現在の研究は様々な入力表現で断片化されている。
ANUBISは、既存のベンチマークで重要なギャップに対処するために設計された、大規模で挑戦的なスケルトンアクションデータセットである。
論文 参考訳(メタデータ) (2022-05-04T14:03:43Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。