論文の概要: TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2307.16106v1
- Date: Sun, 30 Jul 2023 01:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:35:14.327825
- Title: TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction
- Title(参考訳): トランスフュージョン:3次元動作予測のための実用的で効果的なトランスフォーマーベース拡散モデル
- Authors: Sibo Tian, Minghui Zheng, and Xiao Liang
- Abstract要約: 本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
- 参考スコア(独自算出の注目度): 1.8923948104852863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting human motion plays a crucial role in ensuring a safe and effective
human-robot close collaboration in intelligent remanufacturing systems of the
future. Existing works can be categorized into two groups: those focusing on
accuracy, predicting a single future motion, and those generating diverse
predictions based on observations. The former group fails to address the
uncertainty and multi-modal nature of human motion, while the latter group
often produces motion sequences that deviate too far from the ground truth or
become unrealistic within historical contexts. To tackle these issues, we
propose TransFusion, an innovative and practical diffusion-based model for 3D
human motion prediction which can generate samples that are more likely to
happen while maintaining a certain level of diversity. Our model leverages
Transformer as the backbone with long skip connections between shallow and deep
layers. Additionally, we employ the discrete cosine transform to model motion
sequences in the frequency space, thereby improving performance. In contrast to
prior diffusion-based models that utilize extra modules like cross-attention
and adaptive layer normalization to condition the prediction on past observed
motion, we treat all inputs, including conditions, as tokens to create a more
lightweight model compared to existing approaches. Extensive experimental
studies are conducted on benchmark datasets to validate the effectiveness of
our human motion prediction model.
- Abstract(参考訳): 人間の動きを予測することは、未来のインテリジェントなリマニュファクチャリングシステムにおいて、安全で効果的な人間ロボットの密接なコラボレーションを保証する上で重要な役割を果たす。
既存の研究は2つのグループに分けられる: 正確さ、単一の将来の動きを予測すること、観察に基づいて多様な予測を生成すること。
前者のグループは人間の運動の不確実性と多様性に対処できず、後者のグループはしばしば基底的真理から遠ざかったり、歴史的文脈において非現実的になったりしている。
これらの課題に対処するために、トランスフュージョン(TransFusion)を提案する。トランスフュージョン(TransFusion)は、あるレベルの多様性を維持しながら、より起こりやすいサンプルを生成することができる3次元人間の動作予測のための革新的で実践的な拡散ベースモデルである。
私たちのモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてtransformerを利用します。
さらに,周波数空間における動き列のモデル化に離散コサイン変換を用いることにより,性能の向上を図る。
クロスアテンションや適応層正規化といった余分なモジュールを用いて過去の観測動作の予測を条件付ける従来の拡散モデルとは対照的に,条件を含む全ての入力をトークンとして扱い,既存のアプローチと比較してより軽量なモデルを作成する。
ヒトの動作予測モデルの有効性を検証するため,ベンチマークデータセットを用いて大規模な実験を行った。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Human Joint Kinematics Diffusion-Refinement for Stochastic Motion
Prediction [22.354538952573158]
MotionDiffは、人間の関節のキネマティクスを加熱粒子として扱う拡散確率モデルである。
MotionDiffは、多種多様な可塑性運動を生成する空間時間変換器ベースの拡散ネットワークと、出力をさらに洗練するためのグラフ畳み込みネットワークの2つの部分で構成されている。
論文 参考訳(メタデータ) (2022-10-12T07:38:33Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical
VAE [37.23381308240617]
本稿では,階層型トランスフォーマー動的変分オートエンコーダ(HiT-DVAE)を提案する。
提案手法はHumanEva-IおよびHuman3.6Mにおいて,様々な評価手法を用いて評価し,その大部分において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T15:12:34Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Learning to Predict Diverse Human Motions from a Single Image via
Mixture Density Networks [9.06677862854201]
本研究では,混合密度ネットワーク(MDN)モデルを用いて,単一画像から将来の人間の動きを予測する新しい手法を提案する。
MDNのマルチモーダルな性質は、既存のディープヒューマンモーション予測アプローチとは対照的に、様々な将来のモーション仮説の生成を可能にしている。
訓練されたモデルでは、入力として画像を直接取り、与えられた条件を満たす複数の可視運動を生成する。
論文 参考訳(メタデータ) (2021-09-13T08:49:33Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - FloMo: Tractable Motion Prediction with Normalizing Flows [0.0]
ノイズサンプルと将来の動き分布の正規化フローによる密度推定問題として動作予測をモデル化する。
我々のモデルはFloMoと呼ばれ、単一のネットワークパスで確率を計算でき、最大推定で直接訓練することができる。
提案手法は,3つの一般的な予測データセットにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-05T11:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。