Fugu-MT 論文翻訳(概要): Enhanced 3D Human Pose Estimation from Videos by using Attention-Based Neural Network with Dilated Convolutions

論文の概要: Enhanced 3D Human Pose Estimation from Videos by using Attention-Based Neural Network with Dilated Convolutions

arxiv url: http://arxiv.org/abs/2103.03170v1
Date: Thu, 4 Mar 2021 17:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-07 15:28:48.798697
Title: Enhanced 3D Human Pose Estimation from Videos by using Attention-Based Neural Network with Dilated Convolutions
Title（参考訳）: 拡張畳み込みを用いた注意型ニューラルネットワークによる映像からの3次元人物位置推定
Authors: Ruixu Liu, Ju Shen, He Wang, Chen Chen, Sen-ching Cheung, Vijayan K. Asari
Abstract要約: 従来のネットワークや制約の形式が、どのように注意の枠組みに組み込むことができるのかを体系的な設計で示します。拡張畳み込みのマルチスケール構造により,時間受容場を適応させることにより,これを実現する。提案手法は,Human3.6Mデータセット上での関節位置誤差の平均を33.4mmに減らし,最先端性能を達成し,既存の手法よりも優れる。
参考スコア（独自算出の注目度）: 12.900524511984798
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The attention mechanism provides a sequential prediction framework for learning spatial models with enhanced implicit temporal consistency. In this work, we show a systematic design (from 2D to 3D) for how conventional networks and other forms of constraints can be incorporated into the attention framework for learning long-range dependencies for the task of pose estimation. The contribution of this paper is to provide a systematic approach for designing and training of attention-based models for the end-to-end pose estimation, with the flexibility and scalability of arbitrary video sequences as input. We achieve this by adapting temporal receptive field via a multi-scale structure of dilated convolutions. Besides, the proposed architecture can be easily adapted to a causal model enabling real-time performance. Any off-the-shelf 2D pose estimation systems, e.g. Mocap libraries, can be easily integrated in an ad-hoc fashion. Our method achieves the state-of-the-art performance and outperforms existing methods by reducing the mean per joint position error to 33.4 mm on Human3.6M dataset.
Abstract（参考訳）: 注意メカニズムは、暗黙的な時間整合性を高めた空間モデル学習のための連続予測フレームワークを提供する。本研究では,従来のネットワークなどの制約をアテンションフレームワークに組み込む手法として,ポーズ推定タスクの長距離依存性を学習するための体系的設計(2次元から3次元まで)を提案する。本論文は,任意の映像シーケンスの柔軟性とスケーラビリティを入力として,エンド・ツー・エンドのポーズ推定のためのアテンションベースモデルの設計と訓練のための体系的なアプローチを提案する。拡張畳み込みのマルチスケール構造により,時間受容場を適応させることにより,これを実現する。さらに,提案アーキテクチャは,リアルタイム性能を実現する因果モデルに容易に適応できる。既製の2Dポーズ推定システム、例えば。 Mocapライブラリは、アドホックな方法で簡単に統合できます。提案手法は,Human3.6Mデータセット上での関節位置誤差の平均を33.4mmに減らし,最先端性能を達成し,既存の手法よりも優れる。

関連論文リスト

Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation [3.3946853660795884]
グラフ畳み込みネットワーク(GCN)に基づく手法は,3次元ポーズ推定において高い性能を示した。本稿では,2次元から3次元のポーズリフトをグラフベースで学習するフレームワークPoseKANを紹介する。本モデルではマルチホップ機能アグリゲーションを用いて,身体の関節が局所的および遠隔的隣人からの情報を活用することを保証している。
論文参考訳（メタデータ） (2025-11-11T22:23:24Z)
PRGCN: A Graph Memory Network for Cross-Sequence Pattern Reuse in 3D Human Pose Estimation [18.771349697842947]
本稿では、パターン検索と適応の問題としてポーズ推定を形式化する新しいフレームワークであるパターン再利用グラフ変換ネットワーク(PRGCN)を紹介する。 PRGCNのコアとなるグラフメモリバンクは、リレーショナルグラフとして符号化された一連のコンパクトなポーズプロトタイプを学習し、格納する。 PRGCNは,それぞれ37.1mm,13.4mmのMPJPEを達成し,クロスドメインの一般化能力の向上を図っている。
論文参考訳（メタデータ） (2025-10-22T11:12:07Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,映像中の3次元ポーズ推定のためのグラフベースのフレームワークを提案する。具体的には,各アテンション層に直接グラフ情報を統合するグラフベースのアテンションメカニズムを開発する。提案手法は,3次元人物のポーズ推定において,最先端の性能を実現することを実証する。
論文参考訳（メタデータ） (2024-07-14T06:45:27Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。また, 関節間の関係を学習するために, 隣接変調を用いた。
論文参考訳（メタデータ） (2023-08-29T14:00:55Z)
DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文参考訳（メタデータ） (2023-07-31T14:00:23Z)
3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文参考訳（メタデータ） (2022-06-05T15:12:57Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)
Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。提案手法は,KITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-21T14:36:07Z)
Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文参考訳（メタデータ） (2021-05-05T17:49:55Z)
Kinematic-Structure-Preserved Representation for Unsupervised 3D Human Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文参考訳（メタデータ） (2020-06-24T23:56:33Z)
A Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文参考訳（メタデータ） (2020-03-11T14:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。