論文の概要: AdaFPP: Adapt-Focused Bi-Propagating Prototype Learning for Panoramic Activity Recognition
- arxiv url: http://arxiv.org/abs/2405.02538v1
- Date: Sat, 4 May 2024 01:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:40:23.996970
- Title: AdaFPP: Adapt-Focused Bi-Propagating Prototype Learning for Panoramic Activity Recognition
- Title(参考訳): AdaFPP:パノラマ活動認識のための適応型バイプロパゲーティングプロトタイプ学習
- Authors: Meiqi Cao, Rui Yan, Xiangbo Shu, Guangzhao Dai, Yazhou Yao, Guo-Sen Xie,
- Abstract要約: パノラマ活動認識(PAR)は、パノラマシーンにおいて複数の人が行う多粒度行動を特定することを目的としている。
以前の方法は、トレーニングと推論において手動で注釈付き検出ボックスに依存しており、より実用的なデプロイメントを妨げる。
本研究では,パノラマ活動シーンにおける個人,グループ,グローバルな活動を共同で認識するための,適応型バイプロパゲーティング・プロトタイプ学習(AdaFPP)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.24321348668037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic Activity Recognition (PAR) aims to identify multi-granularity behaviors performed by multiple persons in panoramic scenes, including individual activities, group activities, and global activities. Previous methods 1) heavily rely on manually annotated detection boxes in training and inference, hindering further practical deployment; or 2) directly employ normal detectors to detect multiple persons with varying size and spatial occlusion in panoramic scenes, blocking the performance gain of PAR. To this end, we consider learning a detector adapting varying-size occluded persons, which is optimized along with the recognition module in the all-in-one framework. Therefore, we propose a novel Adapt-Focused bi-Propagating Prototype learning (AdaFPP) framework to jointly recognize individual, group, and global activities in panoramic activity scenes by learning an adapt-focused detector and multi-granularity prototypes as the pretext tasks in an end-to-end way. Specifically, to accommodate the varying sizes and spatial occlusion of multiple persons in crowed panoramic scenes, we introduce a panoramic adapt-focuser, achieving the size-adapting detection of individuals by comprehensively selecting and performing fine-grained detections on object-dense sub-regions identified through original detections. In addition, to mitigate information loss due to inaccurate individual localizations, we introduce a bi-propagation prototyper that promotes closed-loop interaction and informative consistency across different granularities by facilitating bidirectional information propagation among the individual, group, and global levels. Extensive experiments demonstrate the significant performance of AdaFPP and emphasize its powerful applicability for PAR.
- Abstract(参考訳): パノラマ活動認識(PAR)は、パノラマシーンにおいて、個人活動、グループ活動、グローバル活動を含む複数の人が行う多粒度行動を特定することを目的としている。
これまでの方法
1) トレーニング及び推論において手動で注釈付き検出ボックスに大きく依存し,さらに実践的な展開を妨げること。
2) パノラマシーンにおける複数の人物の空間閉塞や大きさの変化を検知するために通常の検出器を直接使用し,PARの性能向上を阻害した。
この目的のために、我々は、オールインワンフレームワークにおける認識モジュールとともに最適化された、様々なサイズの隠蔽された人物に対応する検出器を学習することを検討する。
そこで本研究では,適応型検知器と多粒度プロトタイプをエンド・ツー・エンドの作業として学習することにより,パノラマ活動シーンにおける個人,グループ,グローバルな活動を協調的に認識する,適応型バイプロパゲーティング・プロトタイプ学習(AdaFPP)フレームワークを提案する。
具体的には,成長したパノラマシーンにおける複数の人物の大きさや空間的閉塞の変動に対応するため,パノラマ適応焦点装置を導入し,オリジナル検出によって同定されたオブジェクト密度サブ領域の細粒度検出を包括的に選択し,個人の大きさ適応検出を実現する。
さらに、不正確な個別の局所化による情報損失を軽減するため、各個人、グループ、グローバルレベル間の双方向情報伝達を容易にすることにより、閉ループの相互作用を促進し、異なる粒度にわたって情報的整合性を促進するバイプロパゲーションプロトタイプを導入する。
大規模な実験は、AdaFPPの重要な性能を示し、PARの強力な適用性を強調している。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition [2.1794550051087995]
本稿では,各タスクのユニークな特徴と異なるタスク間の相乗効果を同時に考慮したMPT-PARモデルを提案する。
提案手法は,JRDB-PARデータセットの粒度とF1総合スコアを47.5%とした。
論文 参考訳(メタデータ) (2024-08-01T09:42:44Z) - GOOD: Towards Domain Generalized Orientated Object Detection [39.76969237020444]
オブジェクト指向物体検出はここ数年で急速に発展してきたが、これらの手法のほとんどは、トレーニングとテスト画像は同じ統計分布下にあると仮定している。
本稿では,任意の対象領域上でのオブジェクト指向物体検出の一般化を探求する領域一般化オブジェクト指向物体検出の課題を提案する。
論文 参考訳(メタデータ) (2024-02-20T07:12:22Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。
モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。
本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文 参考訳(メタデータ) (2020-03-29T04:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。