論文の概要: Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition
- arxiv url: http://arxiv.org/abs/2403.14113v1
- Date: Thu, 21 Mar 2024 03:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:27:06.216525
- Title: Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition
- Title(参考訳): パノラマ活動認識のための時空間親和性を考慮したデュアルパスモデル
- Authors: Sumin Lee, Yooseung Wang, Sangmin Woo, Changick Kim,
- Abstract要約: パノラマ活動認識(PAR)は、異なるスケールにわたる人間の活動を特定する。
SPDP-Net(Social Proximity-aware Dual-Path Network)は、2つの主要な設計原則に基づくネットワークである。
S PDP-Netは、JRDB-PARデータセットのF1スコア全体の46.5%を達成している。
- 参考スコア(独自算出の注目度): 19.813895376349613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic Activity Recognition (PAR) seeks to identify diverse human activities across different scales, from individual actions to social group and global activities in crowded panoramic scenes. PAR presents two major challenges: 1) recognizing the nuanced interactions among numerous individuals and 2) understanding multi-granular human activities. To address these, we propose Social Proximity-aware Dual-Path Network (SPDP-Net) based on two key design principles. First, while previous works often focus on spatial distance among individuals within an image, we argue to consider the spatio-temporal proximity. It is crucial for individual relation encoding to correctly understand social dynamics. Secondly, deviating from existing hierarchical approaches (individual-to-social-to-global activity), we introduce a dual-path architecture for multi-granular activity recognition. This architecture comprises individual-to-global and individual-to-social paths, mutually reinforcing each other's task with global-local context through multiple layers. Through extensive experiments, we validate the effectiveness of the spatio-temporal proximity among individuals and the dual-path architecture in PAR. Furthermore, SPDP-Net achieves new state-of-the-art performance with 46.5\% of overall F1 score on JRDB-PAR dataset.
- Abstract(参考訳): パノラマ活動認識(PAR)は、パノラマシーンにおける個人行動から社会集団、グローバル活動まで、さまざまなスケールで多様な人間の活動を特定することを目指している。
PARは2つの大きな課題を提示します。
1)多数の個人間のニュアンスド・インタラクションの認識と認識
2)多粒性人間活動の理解
そこで本稿では,2つの設計原則に基づいて,SPDP-Net(Social Proximity-aware Dual-Path Network)を提案する。
まず、画像内の個人間の空間的距離に焦点をあてる場合が多いが、時空間的近接性について考察する。
社会的ダイナミクスを正しく理解するためには、個々の関係エンコーディングが不可欠である。
第二に、既存の階層的アプローチ(個々人から人への活動)から逸脱し、多粒性活動認識のためのデュアルパスアーキテクチャを導入する。
このアーキテクチャは、複数のレイヤを通じてグローバルなコンテキストで相互にタスクを補強する、個別のグローバルパスと個別のソーシャルパスから構成される。
広汎な実験を通して,個人間の時空間近接とPARにおける二重パスアーキテクチャの有効性を検証した。
さらに、SPDP-Netは、JRDB-PARデータセット上のF1スコア全体の46.5倍のスコアで、最先端の新たなパフォーマンスを実現している。
関連論文リスト
- MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition [2.1794550051087995]
本稿では,各タスクのユニークな特徴と異なるタスク間の相乗効果を同時に考慮したMPT-PARモデルを提案する。
提案手法は,JRDB-PARデータセットの粒度とF1総合スコアを47.5%とした。
論文 参考訳(メタデータ) (2024-08-01T09:42:44Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment
Analysis [34.1489054082536]
本稿では,2つのタスク間の双方向相互作用を適切にモデル化する階層型対話型ネットワーク(HI-ASA)を提案する。
クロススティッチ機構を用いて、異なるタスク固有の特徴を入力として選択的に組み合わせ、適切な双方向インタラクションを保証する。
3つの実世界のデータセットの実験は、HI-ASAがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-24T03:03:49Z) - Dual-AI: Dual-path Actor Interaction Learning for Group Activity
Recognition [103.62363658053557]
空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
論文 参考訳(メタデータ) (2022-04-05T12:17:40Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。