Fugu-MT 論文翻訳(概要): Learning Scene Flow With Skeleton Guidance For 3D Action Recognition

論文の概要: Learning Scene Flow With Skeleton Guidance For 3D Action Recognition

arxiv url: http://arxiv.org/abs/2306.13285v1
Date: Fri, 23 Jun 2023 04:14:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 13:46:38.159672
Title: Learning Scene Flow With Skeleton Guidance For 3D Action Recognition
Title（参考訳）: スケルトンガイドを用いた3次元行動認識のためのシーンフロー学習
Authors: Vasileios Magoulianitis, Athanasios Psaltis
Abstract要約: 本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
参考スコア（独自算出の注目度）: 1.5954459915735735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Among the existing modalities for 3D action recognition, 3D flow has been poorly examined, although conveying rich motion information cues for human actions. Presumably, its susceptibility to noise renders it intractable, thus challenging the learning process within deep models. This work demonstrates the use of 3D flow sequence by a deep spatiotemporal model and further proposes an incremental two-level spatial attention mechanism, guided from skeleton domain, for emphasizing motion features close to the body joint areas and according to their informativeness. Towards this end, an extended deep skeleton model is also introduced to learn the most discriminant action motion dynamics, so as to estimate an informativeness score for each joint. Subsequently, a late fusion scheme is adopted between the two models for learning the high level cross-modal correlations. Experimental results on the currently largest and most challenging dataset NTU RGB+D, demonstrate the effectiveness of the proposed approach, achieving state-of-the-art results.
Abstract（参考訳）: 既存の3次元動作認識法の中では,人間の行動に豊富な動作情報手段を伝達しながらも,3次元フローが不十分である。おそらく、ノイズに対する感受性は難解であり、深層モデルの学習プロセスに挑戦する。本研究は,深部時空間モデルによる3次元流れ列の利用を実証し,さらにスケルトン領域から誘導される2段階の空間的注意機構を提案する。この目的に向けて、各関節に対する情報度スコアを推定するために、最も識別性の高い動作力学を学習するために、拡張された深部骨格モデルも導入された。その後,2つのモデルの間で,高次相互モーダル相関を学習するための遅延融合方式が採用された。現在最大かつ最も挑戦的なデータセットであるNTU RGB+Dの実験結果は、提案手法の有効性を示し、最先端の結果を達成する。

関連論文リスト

DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文参考訳（メタデータ） (2025-03-26T04:23:53Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文参考訳（メタデータ） (2024-07-08T17:59:54Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose Reconstruction in a Diffusion Framework [6.669850111205944]
単眼の3次元ポーズ推定は、2Dから3Dへの再投射過程で生じる固有の深さの曖昧さによって重要な課題を提起する。拡散モデルの最近の進歩は、再投射のあいまいさに対処するために構造的事前を組み込むことが約束されている。本稿では,3次元座標の接合レベル特徴と2次元投影との相関関係の解明を目的とした,新しいクロスチャネル埋め込みフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-18T09:53:03Z)
Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文参考訳（メタデータ） (2023-08-18T16:41:57Z)
Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling [13.284947022380404]
頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。 AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
論文参考訳（メタデータ） (2023-08-17T08:27:55Z)
LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。 BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文参考訳（メタデータ） (2022-03-21T03:35:32Z)
Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。 2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。 3つの大規模データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2021-08-10T09:25:07Z)
Dynamical Deep Generative Latent Modeling of 3D Skeletal Motion [15.359134407309726]
本モデルでは,高度に相関した骨格データを時間的変化の空間的基礎の集合に分解する。これにより、3次元ポーズデータのダイナミックスにおいて意味のある内在状態を解析する動的深部生成潜在モデルが得られる。
論文参考訳（メタデータ） (2021-06-18T23:58:49Z)
Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2020-03-31T11:28:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。