Fugu-MT 論文翻訳(概要): FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video Observations

論文の概要: FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video Observations

arxiv url: http://arxiv.org/abs/2211.14309v3
Date: Fri, 17 May 2024 14:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 20:53:07.335245
Title: FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video Observations
Title（参考訳）: FutureHuman3D:ビデオ観察による複雑な3次元人間行動の予測
Authors: Christian Diller, Thomas Funkhouser, Angela Dai,
Abstract要約: 本稿では,3次元における長期的人間の行動を予測するための生成的アプローチを提案する。我々は高レベルの粗いアクションラベルと低レベルの微粒化を特徴的3次元人間のポーズとして共同で予測する。実験では,関節動作と3次元ポーズ予測の相補的性質を実証した。
参考スコア（独自算出の注目度）: 26.693664045454526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a generative approach to forecast long-term future human behavior in 3D, requiring only weak supervision from readily available 2D human action data. This is a fundamental task enabling many downstream applications. The required ground-truth data is hard to capture in 3D (mocap suits, expensive setups) but easy to acquire in 2D (simple RGB cameras). Thus, we design our method to only require 2D RGB data at inference time while being able to generate 3D human motion sequences. We use a differentiable 2D projection scheme in an autoregressive manner for weak supervision, and an adversarial loss for 3D regularization. Our method predicts long and complex human behavior sequences (e.g., cooking, assembly) consisting of multiple sub-actions. We tackle this in a semantically hierarchical manner, jointly predicting high-level coarse action labels together with their low-level fine-grained realizations as characteristic 3D human poses. We observe that these two action representations are coupled in nature, and joint prediction benefits both action and pose forecasting. Our experiments demonstrate the complementary nature of joint action and 3D pose prediction: our joint approach outperforms each task treated individually, enables robust longer-term sequence prediction, and improves over alternative approaches to forecast actions and characteristic 3D poses.
Abstract（参考訳）: 本稿では,3次元における長期的人間の行動を予測するための生成的アプローチを提案する。これは多くのダウンストリームアプリケーションを可能にする基本的なタスクです。必要な地道データは3D(モキャップスーツ、高価なセットアップ)で取得するのは難しいが、2D(シンプルなRGBカメラ)で取得するのは難しい。そこで本手法では,3次元の動作シーケンスを生成できながら,推論時にのみ2次元RGBデータを必要とするように設計する。弱い監督のために自己回帰方式で微分可能な2次元プロジェクション方式を用い、3次元正規化において逆方向の損失を生じさせる。提案手法は,複数のサブアクションからなる長期かつ複雑な人間の行動系列(例えば,調理,組立)を予測する。本研究では,高レベルの粗い行動ラベルと低レベルの微粒化を特徴的3次元人間のポーズとして共同で予測し,意味的に階層的な手法でこれに取り組む。これら2つの行動表現が自然に結合していることが観察され、共同予測はアクションとポーズ予測の両方に利益がある。共同動作の相補的な性質と3Dポーズの予測を実証し,各タスクを個別に処理し,より堅牢な長期シーケンス予測を実現し,行動予測と特徴的3Dポーズに対する代替アプローチを改善する。

関連論文リスト

Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture [31.82852393452607]
Mocap-2-to-3は複雑な3D動作を2Dポーズに分解する新しいフレームワークである。我々は2次元データを活用し,多様なシナリオにおける3次元運動再構成を向上する。実世界のデータセット上でのモデルの性能を評価する。
論文参考訳（メタデータ） (2025-03-05T06:32:49Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文参考訳（メタデータ） (2023-12-26T18:56:49Z)
A generic diffusion-based approach for 3D human pose prediction in the wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文参考訳（メタデータ） (2022-10-11T17:59:54Z)
Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion Prior [7.157324258813676]
私たちは、トレーニングとテストの両方に使用できる最初の3Dクローズドモーションデータセット(OcMotion)を構築します。次に、空間時間層は、関節レベルの相関を学習するために設計される。実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることが示唆された。
論文参考訳（メタデータ） (2022-07-12T08:15:11Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)
3D Skeleton-based Human Motion Prediction with Manifold-Aware GAN [3.1313293632309827]
本研究では,3次元骨格を用いた人体動作予測の新しい手法を提案する。我々は,人間の運動の時間的および空間的依存を捉える,多様体を意識したワッサーシュタイン生成逆数モデルを構築した。 CMU MoCapとHuman 3.6Mデータセットで実験が行われた。
論文参考訳（メタデータ） (2022-03-01T20:49:13Z)
Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文参考訳（メタデータ） (2020-10-13T15:24:28Z)
Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文参考訳（メタデータ） (2020-08-04T07:54:25Z)
Cascaded deep monocular 3D human pose estimation with evolutionary training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文参考訳（メタデータ） (2020-06-14T03:09:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。