論文の概要: MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition
- arxiv url: http://arxiv.org/abs/2408.00420v1
- Date: Thu, 1 Aug 2024 09:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:05:55.579000
- Title: MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition
- Title(参考訳): パノラマ活動認識のためのMPT-PAR:Mix-Parameters Transformer
- Authors: Wenqing Gan, Yan Sun, Feiran Liu, Xiangfeng Luo,
- Abstract要約: 本稿では,各タスクのユニークな特徴と異なるタスク間の相乗効果を同時に考慮したMPT-PARモデルを提案する。
提案手法は,JRDB-PARデータセットの粒度とF1総合スコアを47.5%とした。
- 参考スコア(独自算出の注目度): 2.1794550051087995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of the panoramic activity recognition task is to identify behaviors at various granularities within crowded and complex environments, encompassing individual actions, social group activities, and global activities. Existing methods generally use either parameter-independent modules to capture task-specific features or parameter-sharing modules to obtain common features across all tasks. However, there is often a strong interrelatedness and complementary effect between tasks of different granularities that previous methods have yet to notice. In this paper, we propose a model called MPT-PAR that considers both the unique characteristics of each task and the synergies between different tasks simultaneously, thereby maximizing the utilization of features across multi-granularity activity recognition. Furthermore, we emphasize the significance of temporal and spatial information by introducing a spatio-temporal relation-enhanced module and a scene representation learning module, which integrate the the spatio-temporal context of action and global scene into the feature map of each granularity. Our method achieved an overall F1 score of 47.5\% on the JRDB-PAR dataset, significantly outperforming all the state-of-the-art methods.
- Abstract(参考訳): パノラマ活動認識タスクの目的は、密集した複雑な環境の中で、個々の行動、社会集団の活動、グローバルな活動を含む様々な粒度の行動を特定することである。
既存のメソッドは一般に、タスク固有の特徴をキャプチャするためにパラメータ非依存のモジュールを使うか、すべてのタスクに共通する特徴を得るためにパラメータ共有モジュールを使う。
しかし、しばしば、従来の方法がまだ気付かない粒度の異なるタスクの間には、強い相互関係と相補的な効果がある。
本稿では,各タスクの特徴とタスク間の相乗効果を同時に考慮したMPT-PARモデルを提案する。
さらに、時空間情報の重要性を強調し、時空間的関係強化モジュールとシーン表現学習モジュールを導入することで、時空間的情報の重要性を強調した。
提案手法は,JRDB-PARデータセットのF1総合スコアが47.5\%に達し,最先端の手法よりも優れていた。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - AdaFPP: Adapt-Focused Bi-Propagating Prototype Learning for Panoramic Activity Recognition [51.24321348668037]
パノラマ活動認識(PAR)は、パノラマシーンにおいて複数の人が行う多粒度行動を特定することを目的としている。
以前の方法は、トレーニングと推論において手動で注釈付き検出ボックスに依存しており、より実用的なデプロイメントを妨げる。
本研究では,パノラマ活動シーンにおける個人,グループ,グローバルな活動を共同で認識するための,適応型バイプロパゲーティング・プロトタイプ学習(AdaFPP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-04T01:53:22Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - DynaShare: Task and Instance Conditioned Parameter Sharing for
Multi-Task Learning [11.955637263520492]
マルチタスク学習のための新しいパラメータ共有手法を提案する。
本稿では,タスクと入力インスタンスの両方に基づいて,ネットワークのどの部分をアクティブにするかを動的に決定する。
提案手法は,個別入力インスタンスの粗い層選択とゲーティングユニットのためのタスク固有のポリシーからなる階層的ゲーティングポリシーを学習する。
論文 参考訳(メタデータ) (2023-05-26T23:43:21Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z) - Interactive Fusion of Multi-level Features for Compositional Activity
Recognition [100.75045558068874]
インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-10T14:17:18Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - Combined Model for Partially-Observable and Non-Observable Task
Switching: Solving Hierarchical Reinforcement Learning Problems Statically
and Dynamically with Transfer Learning [2.741266294612776]
人間と動物は、作業記憶(WM)と呼ばれるこの焦点を達成するために、PFC(Pre-Frontal Cortex)とBG(Basal Ganglia)の相互作用に依存している。
ツールキットの最近の適応では、抽象タスク表現(ATR)を用いて非可観測(NO)タスクを解くか、過去の入力機能の記憶によって部分可観測(PO)タスクを解くが、両方ではない。
本稿では,ATRと入力ストレージの両方のアプローチを静的あるいは動的に組み合わせた新しいモデルPONOWMtkを提案する。
論文 参考訳(メタデータ) (2020-04-13T21:44:54Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。