Fugu-MT 論文翻訳(概要): Novel Semantic Prompting for Zero-Shot Action Recognition

論文の概要: Novel Semantic Prompting for Zero-Shot Action Recognition

arxiv url: http://arxiv.org/abs/2603.08289v1
Date: Mon, 09 Mar 2026 12:07:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.901756
Title: Novel Semantic Prompting for Zero-Shot Action Recognition
Title（参考訳）: ゼロショット動作認識のための新しい意味的プロンプト
Authors: Salman Iqbal, Waheed Rehman,
Abstract要約: ゼロショットアクション認識は、視覚言語モデルからセマンティック記述を用いた未知のアクションへの知識の伝達に依存している。本稿では,複数の抽象化レベルにおける動作を記述する構造化セマンティックプロンプトを用いて,凍結視覚言語モデルを拡張する軽量フレームワークSP-CLIPを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot action recognition relies on transferring knowledge from vision-language models to unseen actions using semantic descriptions. While recent methods focus on temporal modeling or architectural adaptations to handle video data, we argue that semantic prompting alone provides a strong and underexplored signal for zero-shot action understanding. We introduce SP-CLIP, a lightweight framework that augments frozen vision-language models with structured semantic prompts describing actions at multiple levels of abstraction, such as intent, motion, and object interaction. Without modifying the visual encoder or learning additional parameters, SP-CLIP aligns video representations with enriched textual semantics through prompt aggregation and consistency scoring. Experiments across standard benchmarks show that semantic prompting substantially improves zero-shot action recognition, particularly for fine-grained and compositional actions, while preserving the efficiency and generalization of pretrained models.
Abstract（参考訳）: ゼロショットアクション認識は、視覚言語モデルからセマンティック記述を用いた未知のアクションへの知識の伝達に依存している。近年の手法では、映像データを扱うための時間的モデリングやアーキテクチャ適応に焦点が当てられているが、セマンティックプロンプトだけでは、ゼロショットアクション理解のための強力で未探索な信号が提供されると論じている。 SP-CLIPは、意図、動き、オブジェクトの相互作用など、多段階の抽象的な動作を記述する構造化セマンティックプロンプトによって、凍結視覚言語モデルを強化する軽量フレームワークである。ビジュアルエンコーダを変更したり、追加パラメータを学習することなく、SP-CLIPはビデオ表現とリッチなテキスト意味論をアグリゲーションと整合性スコアリングを通じて調整する。標準ベンチマークによる実験では、セマンティックプロンプトは、特にきめ細かな、構成的なアクションに対して、事前訓練されたモデルの効率と一般化を保ちながら、ゼロショットアクション認識を大幅に改善することが示された。

関連論文リスト

Enhancing Spatio-Temporal Zero-shot Action Recognition with Language-driven Description Attributes [54.50887214639301]
提案手法は,大規模言語モデルを用いて関連キーワードを抽出し,Webcrawled 記述を活用する革新的な手法である。この方法は、人間のアノテーションの必要性を減らし、属性データ作成の面倒な手作業を取り除く。ゼロショット実験では,UCF-101,HMDB-51,Kineetics-600で81.0%,53.1%,68.9%の精度を達成した。
論文参考訳（メタデータ） (2025-10-31T07:45:44Z)
LLM-enhanced Action-aware Multi-modal Prompt Tuning for Image-Text Matching [25.883546163390957]
大規模言語モデル(LLM)が生成する行動関連外部知識を組み込むことにより,CLIPをきめ細かな行動レベル理解に役立てる。本稿では,行動認識に基づく視覚的特徴を集約し,識別的・行動的視覚的表現を確立するための知識を付加する適応的相互作用モジュールを提案する。
論文参考訳（メタデータ） (2025-06-30T03:49:08Z)
Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T10:17:57Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文参考訳（メタデータ） (2023-12-04T02:31:38Z)
Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。 6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文参考訳（メタデータ） (2022-11-22T06:05:17Z)
Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文参考訳（メタデータ） (2022-05-03T17:39:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。