Fugu-MT 論文翻訳(概要): Seamless Human Motion Composition with Blended Positional Encodings

論文の概要: Seamless Human Motion Composition with Blended Positional Encodings

arxiv url: http://arxiv.org/abs/2402.15509v1
Date: Fri, 23 Feb 2024 18:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 13:45:40.659722
Title: Seamless Human Motion Composition with Blended Positional Encodings
Title（参考訳）: Blended Positional Encodings を用いたシームレスヒューマンモーション合成
Authors: German Barquero, Sergio Escalera and Cristina Palmero
Abstract要約: 後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
参考スコア（独自算出の注目度）: 38.85158088021282
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Conditional human motion generation is an important topic with many applications in virtual reality, gaming, and robotics. While prior works have focused on generating motion guided by text, music, or scenes, these typically result in isolated motions confined to short durations. Instead, we address the generation of long, continuous sequences guided by a series of varying textual descriptions. In this context, we introduce FlowMDM, the first diffusion-based model that generates seamless Human Motion Compositions (HMC) without any postprocessing or redundant denoising steps. For this, we introduce the Blended Positional Encodings, a technique that leverages both absolute and relative positional encodings in the denoising chain. More specifically, global motion coherence is recovered at the absolute stage, whereas smooth and realistic transitions are built at the relative stage. As a result, we achieve state-of-the-art results in terms of accuracy, realism, and smoothness on the Babel and HumanML3D datasets. FlowMDM excels when trained with only a single description per motion sequence thanks to its Pose-Centric Cross-ATtention, which makes it robust against varying text descriptions at inference time. Finally, to address the limitations of existing HMC metrics, we propose two new metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt transitions.
Abstract（参考訳）: 条件付き人間のモーション生成は、仮想現実、ゲーム、ロボット工学の多くの応用において重要なトピックである。以前の作品では、テキスト、音楽、シーンによってガイドされた動きを生成することに焦点が当てられていたが、それらは通常、短い期間でのみ孤立した動きをもたらす。代わりに、様々なテキスト記述の連続によって導かれる長い連続的なシーケンスの生成を扱う。本研究では, 後処理や冗長な復調処理を伴わずに, シームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるFlowMDMを紹介する。そこで本研究では,絶対エンコーディングと相対的な位置エンコーディングの両方を活用する手法であるblended positional encodingsを提案する。より具体的には、グローバルな運動コヒーレンスは絶対的な段階で回復されるが、滑らかで現実的な遷移は相対的な段階で構築される。その結果、BabelおよびHumanML3Dデータセットの精度、リアリズム、滑らかさの観点から、最先端の結果が得られる。 flowmdmは、ポーズ中心のクロスアテンションのおかげで、モーションシーケンス毎に単一の記述でトレーニングする場合に優れているため、推論時にさまざまなテキスト記述に対して堅牢である。最後に、既存のHMCメトリクスの限界に対処するため、突発的な遷移を検出するために、ピーク・ジャークとエリア・アンダー・ジャークという2つの新しい指標を提案する。

関連論文リスト

UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。 UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文参考訳（メタデータ） (2025-05-19T07:02:12Z)
FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文参考訳（メタデータ） (2024-11-26T15:48:12Z)
DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。 DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-07T17:58:22Z)
Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文参考訳（メタデータ） (2024-05-24T11:12:37Z)
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2024-01-20T04:58:06Z)
DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文参考訳（メタデータ） (2023-12-07T04:39:22Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。