論文の概要: VicKAM: Visual Conceptual Knowledge Guided Action Map for Weakly Supervised Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2502.09967v1
- Date: Fri, 14 Feb 2025 07:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:55.199460
- Title: VicKAM: Visual Conceptual Knowledge Guided Action Map for Weakly Supervised Group Activity Recognition
- Title(参考訳): VicKAM:グループ活動認識のための視覚的概念的知識誘導行動マップ
- Authors: Zhuming Wang, Yihao Zheng, Jiarui Li, Yaofei Wu, Yan Huang, Zun Li, Lifang Wu, Liang Wang,
- Abstract要約: 既存のグループアクティビティ認識手法は、重要な領域を自動キャプチャするためにオブジェクト検出器やアテンション機構に依存している。
VicKAM(Visual Conceptual Knowledge Guided Action Map)という新しいフレームワークを提案する。
VicKAMは、個々のアクションの位置を効果的に捕捉し、弱い教師付きグループ活動認識のためのアクションセマンティクスと統合する。
- 参考スコア(独自算出の注目度): 14.701516591822358
- License:
- Abstract: Existing weakly supervised group activity recognition methods rely on object detectors or attention mechanisms to capture key areas automatically. However, they overlook the semantic information associated with captured areas, which may adversely affect the recognition performance. In this paper, we propose a novel framework named Visual Conceptual Knowledge Guided Action Map (VicKAM) which effectively captures the locations of individual actions and integrates them with action semantics for weakly supervised group activity recognition.It generates individual action prototypes from training set as visual conceptual knowledge to bridge action semantics and visual representations. Guided by this knowledge, VicKAM produces action maps that indicate the likelihood of each action occurring at various locations, based on image correlation theorem. It further augments individual action maps using group activity related statistical information, representing individual action distribution under different group activities, to establish connections between action maps and specific group activities. The augmented action map is incorporated with action semantic representations for group activity recognition.Extensive experiments on two public benchmarks, the Volleyball and the NBA datasets, demonstrate the effectiveness of our proposed method, even in cases of limited training data. The code will be released later.
- Abstract(参考訳): 既存のグループアクティビティ認識手法は、重要な領域を自動キャプチャするためにオブジェクト検出器やアテンション機構に依存している。
しかし、捕獲された領域に関連する意味情報を見落とし、認識性能に悪影響を及ぼす可能性がある。
本稿では,視覚的概念的知識指導行動マップ(VicKAM)という,行動の場所を効果的に把握し,グループ活動認識を弱監督するアクションセマンティクスと統合し,視覚的概念的知識としての個々の行動プロトタイプを生成し,行動意味と視覚的表現を橋渡しする手法を提案する。
この知識によって導かれたVicKAMは、画像相関定理に基づいて、様々な場所で発生した各アクションの可能性を示すアクションマップを生成する。
さらに、グループ活動に関連する統計情報を用いて個々のアクションマップを拡張し、異なるグループ活動の下での個々のアクション分布を示し、アクションマップと特定のグループ活動との間の接続を確立する。
グループ活動認識のためのアクションセマンティック表現を付加し,VolleyballとNBAデータセットという2つの公開ベンチマークを用いた大規模な実験により,限られたトレーニングデータであっても,提案手法の有効性を実証した。
コードは後でリリースされる。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - AdaFPP: Adapt-Focused Bi-Propagating Prototype Learning for Panoramic Activity Recognition [51.24321348668037]
パノラマ活動認識(PAR)は、パノラマシーンにおいて複数の人が行う多粒度行動を特定することを目的としている。
以前の方法は、トレーニングと推論において手動で注釈付き検出ボックスに依存しており、より実用的なデプロイメントを妨げる。
本研究では,パノラマ活動シーンにおける個人,グループ,グローバルな活動を共同で認識するための,適応型バイプロパゲーティング・プロトタイプ学習(AdaFPP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-04T01:53:22Z) - Group Activity Recognition using Unreliable Tracked Pose [8.592249538742527]
ビデオにおけるグループ活動認識は、ビデオ内のすべての個人の行動を認識するモデルが必要であるため、複雑なタスクである。
我々は、Rendered Pose based Group Activity Recognition System (RePGARS)と呼ばれる革新的な深層学習に基づくグループアクティビティ認識手法を導入する。
論文 参考訳(メタデータ) (2024-01-06T17:36:13Z) - Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Automatic Interaction and Activity Recognition from Videos of Human
Manual Demonstrations with Application to Anomaly Detection [0.0]
本稿では、シーングラフを利用して、動きパターンとコンテキストを同時に処理しながら、画像シーケンスから重要な相互作用特徴を抽出する。
イベントベースの自動ビデオセグメンテーションとクラスタリングを導入し、同様のイベントをグループ化して、監視されたアクティビティが正しく実行されるかどうかを検出する。
論文 参考訳(メタデータ) (2023-04-19T16:15:23Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Home Action Genome: Cooperative Compositional Action Understanding [33.69990813932372]
アクション認識に関する既存の研究は、アクティビティをビデオで発生したモノリシックなイベントとして扱う。
協調構成行動理解(CCAU)は階層的行動認識のための協調学習フレームワークである。
単サンプルで28.6%のmAPを達成し, 複数ショット動作認識におけるコラーニング合成の有用性を実証した。
論文 参考訳(メタデータ) (2021-05-11T17:42:47Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。