Fugu-MT 論文翻訳(概要): MUGL: Large Scale Multi Person Conditional Action Generation with Locomotion

論文の概要: MUGL: Large Scale Multi Person Conditional Action Generation with Locomotion

arxiv url: http://arxiv.org/abs/2110.11460v1
Date: Thu, 21 Oct 2021 20:11:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-25 15:59:28.452481
Title: MUGL: Large Scale Multi Person Conditional Action Generation with Locomotion
Title（参考訳）: MUGL:ロコモーションを用いた大規模多人数条件行動生成
Authors: Shubh Maheshwari, Debtanu Gupta, Ravi Kiran Sarvadevabhatla
Abstract要約: MUGLは、大規模で多様な1対複数対多のポーズベースのアクションシーケンスをロコモーションで生成するための、新しいディープニューラルネットワークモデルである。我々の制御可能なアプローチは、100以上のカテゴリで、アクションカテゴリによってカスタマイズ可能な可変長世代を可能にする。
参考スコア（独自算出の注目度）: 9.30315673109153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce MUGL, a novel deep neural model for large-scale, diverse generation of single and multi-person pose-based action sequences with locomotion. Our controllable approach enables variable-length generations customizable by action category, across more than 100 categories. To enable intra/inter-category diversity, we model the latent generative space using a Conditional Gaussian Mixture Variational Autoencoder. To enable realistic generation of actions involving locomotion, we decouple local pose and global trajectory components of the action sequence. We incorporate duration-aware feature representations to enable variable-length sequence generation. We use a hybrid pose sequence representation with 3D pose sequences sourced from videos and 3D Kinect-based sequences of NTU-RGBD-120. To enable principled comparison of generation quality, we employ suitably modified strong baselines during evaluation. Although smaller and simpler compared to baselines, MUGL provides better quality generations, paving the way for practical and controllable large-scale human action generation.
Abstract（参考訳）: 移動を伴う多人数のポーズ・アクション・シーケンスを大規模かつ多種多様に生成する深層神経モデルであるmuglを提案する。我々の制御可能なアプローチは、100以上のカテゴリで、アクションカテゴリによってカスタマイズ可能な可変長世代を可能にする。カテゴリー内・カテゴリー間多様性を実現するために,条件付きガウス混合変分オートエンコーダを用いて潜在生成空間をモデル化する。移動を含む行動の現実的な生成を可能にするため、動作シーケンスの局所的なポーズとグローバルな軌道成分を分離する。可変長シーケンス生成を可能にするために、持続時間認識特徴表現を組み込む。ビデオとNTU-RGBD-120のKinectをベースとした3次元ポーズシーケンスを用いたハイブリッドポーズシーケンス表現を用いる。世代品質の原理的比較を可能にするために,評価中に適度に修正された強いベースラインを用いる。 MUGLはベースラインに比べて小さくてシンプルだが、より高品質な世代を提供し、実用的で制御可能な大規模ヒューマンアクション生成の道を開く。

関連論文リスト

GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文参考訳（メタデータ） (2024-12-15T14:21:19Z)
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文参考訳（メタデータ） (2024-11-25T07:34:23Z)
Diffusion Transformer Policy [48.50988753948537]
多様なロボットデータに基づいて事前訓練された拡散トランスフォーマーポリシーは、異なる実施形態に一般化することができる。提案手法は,Calvinの新規タスク設定において,1つの3次元カメラストリームのみを用いて,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。 NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文参考訳（メタデータ） (2023-10-03T17:50:23Z)
Example-based Motion Synthesis via Generative Motion Matching [44.20519633463265]
我々は、単一または少数のサンプルシーケンスから可能な限り多くの多様な動きを「マイニング」する生成モデルGenMMを提案する。 GenMMは、トレーニングのない性質と、よく知られたMotion Matching法の優れた品質を継承する。
論文参考訳（メタデータ） (2023-06-01T06:19:33Z)
Action-conditioned On-demand Motion Generation [11.45641608124365]
本研究では,現実的で多種多様な3次元人間の動作系列を生成するための新しいフレームワーク,On-Demand Motion Generation (ODMO)を提案する。 ODMOは3つの公開データセットで評価すると、従来のすべてのモーション評価指標に対するSOTAアプローチよりも改善されている。
論文参考訳（メタデータ） (2022-07-17T13:04:44Z)
HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical VAE [37.23381308240617]
本稿では,階層型トランスフォーマー動的変分オートエンコーダ(HiT-DVAE)を提案する。提案手法はHumanEva-IおよびHuman3.6Mにおいて,様々な評価手法を用いて評価し,その大部分において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-04T15:12:34Z)
ActFormer: A GAN Transformer Framework towards General Action-Conditioned 3D Human Motion Generation [16.1094669439815]
一般動作条件付き3次元モーション生成のためのGANトランスフォーマフレームワークを提案する。我々のアプローチは、GANトレーニングスキームの下で強力なActFormer(ActFormer)によって構成される。 ActFormerは、時間的相関とトランスフォーマーエンコーダとのヒューマンインタラクションを交互にモデル化することで、自然にマルチパーソン動作に拡張することができる。
論文参考訳（メタデータ） (2022-03-15T07:50:12Z)
Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文参考訳（メタデータ） (2021-08-19T00:58:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。