論文の概要: 3DV: 3D Dynamic Voxel for Action Recognition in Depth Video
- arxiv url: http://arxiv.org/abs/2005.05501v1
- Date: Tue, 12 May 2020 01:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 19:19:13.063588
- Title: 3DV: 3D Dynamic Voxel for Action Recognition in Depth Video
- Title(参考訳): 3DV:深度ビデオにおける動作認識のための3次元ダイナミックボクセル
- Authors: Yancheng Wang, Yang Xiao, Fu Xiong, Wenxiang Jiang, Zhiguo Cao, Joey
Tianyi Zhou and Junsong Yuan
- Abstract要約: 3次元動的ボクセル(3DV)は,新しい3次元運動表現法として提案されている。
それぞれの利用可能な3DVボクセルは、本質的に3次元空間的特徴と運動的特徴を兼ね備えている。
3DVはポイントセットとして抽象化され、3Dアクション認識のためにPointNet++に入力される。
- 参考スコア(独自算出の注目度): 100.66137494163245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To facilitate depth-based 3D action recognition, 3D dynamic voxel (3DV) is
proposed as a novel 3D motion representation. With 3D space voxelization, the
key idea of 3DV is to encode 3D motion information within depth video into a
regular voxel set (i.e., 3DV) compactly, via temporal rank pooling. Each
available 3DV voxel intrinsically involves 3D spatial and motion feature
jointly. 3DV is then abstracted as a point set and input into PointNet++ for 3D
action recognition, in the end-to-end learning way. The intuition for
transferring 3DV into the point set form is that, PointNet++ is lightweight and
effective for deep feature learning towards point set. Since 3DV may lose
appearance clue, a multi-stream 3D action recognition manner is also proposed
to learn motion and appearance feature jointly. To extract richer temporal
order information of actions, we also divide the depth video into temporal
splits and encode this procedure in 3DV integrally. The extensive experiments
on 4 well-established benchmark datasets demonstrate the superiority of our
proposition. Impressively, we acquire the accuracy of 82.4% and 93.5% on NTU
RGB+D 120 [13] with the cross-subject and crosssetup test setting respectively.
3DV's code is available at https://github.com/3huo/3DV-Action.
- Abstract(参考訳): 深度に基づく3D動作認識を容易にするため、3D動的ボクセル(3DV)を新しい3D動作表現として提案する。
3次元空間のボクセル化により、3DVの鍵となるアイデアは、3DVの3次元運動情報を時間的ランクプーリングによってコンパクトに正規のボクセルセット(すなわち3DV)に符号化することである。
利用可能な3dvボクセルは、内在的に3d空間的および運動的特徴を併せ持つ。
3DVはポイントセットとして抽象化され、エンドツーエンドの学習方法で3Dアクション認識のためにPointNet++に入力される。
3DVをポイントセット形式に転送する直感は、PointNet++は軽量で、ポイントセットに向けた深い機能学習に有効である。
3DVは外観の手がかりを失う可能性があるため、動作特徴と外観特徴を協調的に学習するためのマルチストリーム3D動作認識法も提案されている。
また,アクションの時間次情報をよりリッチに抽出するために,深度映像を時間分割に分割し,この手順を3次元Vでエンコードする。
4つの確立されたベンチマークデータセットに関する広範な実験は、提案の優越性を示している。
また,NTU RGB+D 120[13]では,クロスオブジェクトとクロスセットテストの設定で82.4%,93.5%の精度が得られた。
3DVのコードはhttps://github.com/3huo/3DV-Actionで公開されている。
関連論文リスト
- DGD: Dynamic 3D Gaussians Distillation [14.7298711927857]
単一の単眼映像を入力として,動的3次元セマンティックラディアンス場を学習する作業に取り組む。
我々の学習したセマンティック・ラディアンス・フィールドは、動的3Dシーンの色と幾何学的性質だけでなく、ポイントごとのセマンティクスをキャプチャする。
動的3Dシーンの外観と意味を統一した3D表現であるDGDを提案する。
論文 参考訳(メタデータ) (2024-05-29T17:52:22Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - A Unified Framework for 3D Point Cloud Visual Grounding [60.75319271082741]
本稿では,3DREC と 3DRES を 3DRefTR という統合フレームワークに統合する取り組みについて述べる。
その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。
この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
論文 参考訳(メタデータ) (2023-08-23T03:20:31Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。
TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。
本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文 参考訳(メタデータ) (2022-09-19T05:54:26Z) - Point3D: tracking actions as moving points with 3D CNNs [27.814375805542394]
現在の最先端のアクション検出器は、主にアンカーベースである。
初期アンカーレスアプローチを応用して,動作認識の精度の高いフレキシブルで効率的なネットワークであるPoint3Dを提案する。
論文 参考訳(メタデータ) (2022-03-20T15:41:47Z) - Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal
Heatmaps [2.2079886535603084]
動作分類のための統一表現において、ポーズ情報と動き情報を符号化する深度認識記述子を提案する。
本手法の鍵となる要素は,人体の意味的キーポイントの3次元移動を符号化した新しいビデオ記述子,DA-PoTionである。
論文 参考訳(メタデータ) (2020-11-26T17:26:42Z) - Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-11-22T09:20:49Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。