論文の概要: Prompt-guided Representation Disentanglement for Action Recognition
- arxiv url: http://arxiv.org/abs/2509.21783v2
- Date: Thu, 09 Oct 2025 13:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.70643
- Title: Prompt-guided Representation Disentanglement for Action Recognition
- Title(参考訳): Prompt-Guided Representation Disentanglement for Action Recognition
- Authors: Tianci Wu, Guangming Zhu, Jiang Lu, Siyuan Wang, Ning Wang, Nuoye Xiong, Zhang Liang,
- Abstract要約: ProDA(Prompt-Guided Disentangled Representation for Action Recognition)を提案する。
ProDAは、特定のアクションをマルチアクションシーンから切り離す。
動的重みを使って情報を集約するビデオ適応型グラフパーシングニューラルネットワーク(GPNN)を設計する。
- 参考スコア(独自算出の注目度): 16.990362901681948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is a fundamental task in video understanding. Existing methods typically extract unified features to process all actions in one video, which makes it challenging to model the interactions between different objects in multi-action scenarios. To alleviate this issue, we explore disentangling any specified actions from complex scenes as an effective solution. In this paper, we propose Prompt-guided Disentangled Representation for Action Recognition (ProDA), a novel framework that disentangles any specified actions from a multi-action scene. ProDA leverages Spatio-temporal Scene Graphs (SSGs) and introduces Dynamic Prompt Module (DPM) to guide a Graph Parsing Neural Network (GPNN) in generating action-specific representations. Furthermore, we design a video-adapted GPNN that aggregates information using dynamic weights. Experiments in video action recognition demonstrate the effectiveness of our approach when compared with the state-of-the-art methods. Our code can be found in https://github.com/iamsnaping/ProDA.git
- Abstract(参考訳): アクション認識は、ビデオ理解における基本的なタスクである。
既存の手法は、通常、1つのビデオで全てのアクションを処理するために統合された特徴を抽出するので、多アクションシナリオにおける異なるオブジェクト間の相互作用をモデル化することは困難である。
この問題を緩和するために、複雑なシーンからの特定のアクションを効果的に解決する方法について検討する。
本稿では,マルチアクションシーンから特定のアクションをアンタングル化する新しいフレームワーク,Prompt-guided Disentangled Representation for Action Recognition (ProDA)を提案する。
ProDAは、時空間グラフ(SSG)を活用し、動的プロンプトモジュール(DPM)を導入して、アクション固有の表現を生成するグラフパーシングニューラルネットワーク(GPNN)をガイドする。
さらに,動的重みを用いて情報を集約するビデオ適応型GPNNを設計する。
映像行動認識実験は,最先端手法と比較した場合のアプローチの有効性を示した。
私たちのコードはhttps://github.com/iamsnaping/ProDA.gitにある。
関連論文リスト
- Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Generative Action Description Prompts for Skeleton-based Action
Recognition [15.38417530693649]
本稿では,骨格に基づく行動認識のためのGAP(Generative Action-Description Prompts)アプローチを提案する。
本研究では,行動の身体部分の動きのテキスト記述を自動的に生成する知識エンジンとして,事前学習された大規模言語モデルを用いる。
提案手法は,推定コストを伴わずに,様々なベースラインモデルに対して顕著な改善を実現する。
論文 参考訳(メタデータ) (2022-08-10T12:55:56Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Activity Graph Transformer for Temporal Action Localization [41.69734359113706]
時間的行動のローカリゼーションのためのエンドツーエンド学習可能なモデルであるActivity Graph Transformerを紹介します。
本研究では,この非線形時間構造を,映像を非連続実体としてグラフの形で推論することによって捉える。
その結果,提案したモデルが最新技術より相当なマージンで上回ることが示された。
論文 参考訳(メタデータ) (2021-01-21T10:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。