論文の概要: Motion-Guided Semantic Alignment with Negative Prompts for Zero-Shot Video Action Recognition
- arxiv url: http://arxiv.org/abs/2604.17062v1
- Date: Sat, 18 Apr 2026 16:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.314728
- Title: Motion-Guided Semantic Alignment with Negative Prompts for Zero-Shot Video Action Recognition
- Title(参考訳): ゼロショット映像行動認識のための負のプロンプトを用いたモーションガイド付きセマンティックアライメント
- Authors: Yiming Wang, Frederick W. B. Li, Jingyun Wang,
- Abstract要約: 本稿では,CLIPを不整合埋め込みと意味誘導相互作用で拡張する新しいフレームワークを提案する。
標準ベンチマークの実験では、我々の手法はCLIPベースのアプローチよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 12.523217686212197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot action recognition is challenging due to the semantic gap between seen and unseen classes. We present a novel framework that enhances CLIP with disentangled embeddings and semantic-guided interaction. A Motion Separation Module (MSM) separates motion-sensitive and global-static features, while a Motion Aggregation Block (MAB) employs gated cross-attention to refine motion representation without re-coupling redundant information. To facilitate generalization to unseen categories, we enforce semantic alignment between video features and textual representations by aligning projected embeddings with positive textual prompts, while leveraging negative prompts to explicitly model "non-class" semantics. Experiments on standard benchmarks demonstrate that our method consistently outperforms prior CLIP-based approaches, achieving robust zero-shot action recognition across both coarse and fine-grained datasets.
- Abstract(参考訳): 目に見えないクラスと見えないクラスの間に意味的なギャップがあるため、ゼロショットアクション認識は難しい。
本稿では,CLIPを不整合埋め込みと意味誘導相互作用で拡張する新しいフレームワークを提案する。
動き分離モジュール(MSM)は、動きに敏感で大域的な特徴を分離する一方、モーションアグリゲーションブロック(MAB)は、余分な情報を再結合することなく、動きの表現を洗練するためにゲートクロスアテンションを使用する。
本研究では,ビデオ特徴とテキスト表現のセマンティックアライメントを,非クラスセマンティックスを明示的にモデル化するために負のプロンプトを活用するとともに,プロンプトを正のテキストプロンプトと整列させることにより一般化する。
標準ベンチマークの実験では、我々の手法はCLIPベースのアプローチよりも一貫して優れており、粗いデータセットときめ細かいデータセットの両方で堅牢なゼロショットアクション認識を実現している。
関連論文リスト
- MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation [60.48914865049489]
MotionCFGは、ターゲットコンセプトとノイズブレーブの概念を対比することにより、モーションダイナミクスを強化するフレームワークである。
明示的な否定とは異なり、このアプローチはグローバルな意味的アイデンティティをシフトすることなく暗黙的な否定的なガイダンスを促進する。
MotionCFGは、最先端のT2Vフレームワーク間のモーションダイナミクスを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-14T18:39:37Z) - Novel Semantic Prompting for Zero-Shot Action Recognition [0.0]
ゼロショットアクション認識は、視覚言語モデルからセマンティック記述を用いた未知のアクションへの知識の伝達に依存している。
本稿では,複数の抽象化レベルにおける動作を記述する構造化セマンティックプロンプトを用いて,凍結視覚言語モデルを拡張する軽量フレームワークSP-CLIPを紹介する。
論文 参考訳(メタデータ) (2026-03-09T12:07:55Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training [39.7658823121591]
ZOMGは、アノテーションや微調整を必要とせずに、動作シーケンスを意味のあるサブアクションに分割するフレームワークである。
ZOMGは(1)言語セマンティックパーティションを統合し、大きな言語モデルを利用して命令を順序付けられたサブアクション単位に分解し、(2)ソフトマスキング最適化を行う。
3つのモーション言語データセットの実験では、HumanML3Dベンチマークにおいて、先行手法を+8.7%mAPで上回る、動作グラウンド性能の最先端の有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-11-19T12:11:36Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。