論文の概要: Massively Multi-Person 3D Human Motion Forecasting with Scene Context
- arxiv url: http://arxiv.org/abs/2409.12189v1
- Date: Wed, 18 Sep 2024 17:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:21:44.871764
- Title: Massively Multi-Person 3D Human Motion Forecasting with Scene Context
- Title(参考訳): シーンコンテキストによる大規模マルチパーソン3次元人間の動作予測
- Authors: Felix B Mueller, Julian Tanke, Juergen Gall,
- Abstract要約: 本研究では、長期(10秒)の人間の動きを予測するために、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案する。
我々は、時間的畳み込みエンコーダ・デコーダアーキテクチャとTransformerベースのボトルネックを組み合わせることで、動きとシーン情報を効率的に組み合わせることができる。
我々のモデルは、さまざまなメトリクスやユーザスタディにおいて、リアリズムや多様性の観点から、他のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 13.197408989895102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forecasting long-term 3D human motion is challenging: the stochasticity of human behavior makes it hard to generate realistic human motion from the input sequence alone. Information on the scene environment and the motion of nearby people can greatly aid the generation process. We propose a scene-aware social transformer model (SAST) to forecast long-term (10s) human motion motion. Unlike previous models, our approach can model interactions between both widely varying numbers of people and objects in a scene. We combine a temporal convolutional encoder-decoder architecture with a Transformer-based bottleneck that allows us to efficiently combine motion and scene information. We model the conditional motion distribution using denoising diffusion models. We benchmark our approach on the Humans in Kitchens dataset, which contains 1 to 16 persons and 29 to 50 objects that are visible simultaneously. Our model outperforms other approaches in terms of realism and diversity on different metrics and in a user study. Code is available at https://github.com/felixbmuller/SAST.
- Abstract(参考訳): 人間の行動の確率性は、入力シーケンスだけでは現実的な人間の動きを生成するのを難しくする。
現場環境や近隣の人々の動きに関する情報は、生成過程を大いに助けることができる。
本研究では、長期(10秒)の人間の動きを予測するために、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案する。
従来のモデルとは異なり、我々の手法はシーン内のさまざまな人や物体の相互作用をモデル化することができる。
我々は、時間的畳み込みエンコーダ・デコーダアーキテクチャとTransformerベースのボトルネックを組み合わせることで、動きとシーン情報を効率的に組み合わせることができる。
雑音拡散モデルを用いて条件運動分布をモデル化する。
このデータセットは1~16人、29~50人のオブジェクトを同時に表示しています。
我々のモデルは、さまざまなメトリクスやユーザスタディにおいて、リアリズムや多様性の観点から、他のアプローチよりも優れています。
コードはhttps://github.com/felixbmuller/SASTで入手できる。
関連論文リスト
- Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - Multi-Person 3D Motion Prediction with Multi-Range Transformers [16.62864429495888]
本稿では,個人動作のためのローカルレンジエンコーダと,ソーシャルインタラクションのためのグローバルレンジエンコーダを含むマルチランジトランスフォーマーモデルを提案する。
我々のモデルは、長期3次元動作予測における最先端の手法に勝るだけでなく、多様な社会的相互作用も生み出す。
論文 参考訳(メタデータ) (2021-11-23T18:41:13Z) - Stochastic Scene-Aware Motion Prediction [41.6104600038666]
本稿では,対象物に対して所定の動作を行う異なるスタイルをモデル化する,データ駆動合成動作法を提案する。
SAMP (Scene Aware Motion Prediction) と呼ばれる本手法は, 様々なジオメトリ対象を対象とし, キャラクタが散らばったシーンで移動できるように一般化する。
論文 参考訳(メタデータ) (2021-08-18T17:56:17Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。