論文の概要: Point3D: tracking actions as moving points with 3D CNNs
- arxiv url: http://arxiv.org/abs/2203.10584v1
- Date: Sun, 20 Mar 2022 15:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:48:30.297158
- Title: Point3D: tracking actions as moving points with 3D CNNs
- Title(参考訳): ポイント3D:3D CNNによる移動点としての行動追跡
- Authors: Shentong Mo, Jingfei Xia, Xiaoqing Tan, Bhiksha Raj
- Abstract要約: 現在の最先端のアクション検出器は、主にアンカーベースである。
初期アンカーレスアプローチを応用して,動作認識の精度の高いフレキシブルで効率的なネットワークであるPoint3Dを提案する。
- 参考スコア(独自算出の注目度): 27.814375805542394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal action recognition has been a challenging task that involves
detecting where and when actions occur. Current state-of-the-art action
detectors are mostly anchor-based, requiring sensitive anchor designs and huge
computations due to calculating large numbers of anchor boxes. Motivated by
nascent anchor-free approaches, we propose Point3D, a flexible and
computationally efficient network with high precision for spatio-temporal
action recognition. Our Point3D consists of a Point Head for action
localization and a 3D Head for action classification. Firstly, Point Head is
used to track center points and knot key points of humans to localize the
bounding box of an action. These location features are then piped into a
time-wise attention to learn long-range dependencies across frames. The 3D Head
is later deployed for the final action classification. Our Point3D achieves
state-of-the-art performance on the JHMDB, UCF101-24, and AVA benchmarks in
terms of frame-mAP and video-mAP. Comprehensive ablation studies also
demonstrate the effectiveness of each module proposed in our Point3D.
- Abstract(参考訳): 時空間的行動認識は、行動の発生場所と発生時期を検出することを含む課題である。
現在の最先端のアクション検出器は、主にアンカーベースであり、大量のアンカーボックスを計算するため、センシティブなアンカー設計と膨大な計算を必要とする。
突発的なアンカーフリーアプローチにより,時空間動作認識のための高精度なフレキシブルかつ計算効率の高いネットワークであるPoint3Dを提案する。
私たちのPoint3Dは、アクションローカライゼーションのためのPoint Headとアクション分類のための3D Headで構成されています。
まず、ポイントヘッドは人間の中心点を追跡し、キーポイントを結び、アクションのバウンディングボックスをローカライズするために使用される。
これらのロケーション機能は、フレーム間の長距離依存関係を学習するために、タイムワイドな注意に導かれる。
3Dヘッドは後に最終動作分類のために配備される。
JHMDB, UCF101-24, AVAベンチマークにおいて, フレームmAP, ビデオmAPの両面で最先端の性能を実現する。
包括的アブレーション研究は、Point3Dで提案された各モジュールの有効性も示している。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Surface-biased Multi-Level Context 3D Object Detection [1.9723551683930771]
本研究は,高効率表面偏光特性抽出法(wang2022rbgnet)を用いて3次元点雲中の物体検出タスクに対処する。
本稿では,オブジェクト候補の正確な特徴表現を抽出し,点パッチやオブジェクト候補,グローバルシーンにおける自己注意を活用する3Dオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-02-13T11:50:04Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Group-Free 3D Object Detection via Transformers [26.040378025818416]
3Dポイントクラウドから3Dオブジェクトを直接検出するためのシンプルで効果的な方法を紹介します。
本手法は, 点群内のすべての点から物体の特徴を, 変圧器 citevaswaniattention における注意機構の助けを借りて計算する。
ベルやホイッスルが少ないため,ScanNet V2とSUN RGB-Dの2つのベンチマークで最先端の3Dオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2021-04-01T17:59:36Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。