論文の概要: Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion
Synthesis
- arxiv url: http://arxiv.org/abs/2305.13773v2
- Date: Sun, 24 Dec 2023 06:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:41:35.259924
- Title: Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion
Synthesis
- Title(参考訳): テキスト駆動型人体動作合成のための微粒な運動拡散
- Authors: Dong Wei, Xiaoning Sun, Huaijiang Sun, Bin Li, Shengxiang Hu, Weiqing
Li, Jianfeng Lu
- Abstract要約: 我々は,KeyFrames Collaborated を用いたテキスト駆動動作合成のための条件拡散モデル DiffKFC を提案する。
提案モデルでは, 意味的忠実度の観点から最先端のパフォーマンスを実現するが, より重要なことは, 退屈な労力を伴わずに細かなガイダンスによりアニメーターの要求を満たすことができることである。
- 参考スコア(独自算出の注目度): 21.57205701909026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of text-driven motion synthesis technique provides animators
with great potential to create efficiently. However, in most cases, textual
expressions only contain general and qualitative motion descriptions, while
lack fine depiction and sufficient intensity, leading to the synthesized
motions that either (a) semantically compliant but uncontrollable over specific
pose details, or (b) even deviates from the provided descriptions, bringing
animators with undesired cases. In this paper, we propose DiffKFC, a
conditional diffusion model for text-driven motion synthesis with KeyFrames
Collaborated, enabling realistic generation with collaborative and efficient
dual-level control: coarse guidance at semantic level, with only few keyframes
for direct and fine-grained depiction down to body posture level. Unlike
existing inference-editing diffusion models that incorporate conditions without
training, our conditional diffusion model is explicitly trained and can fully
exploit correlations among texts, keyframes and the diffused target frames. To
preserve the control capability of discrete and sparse keyframes, we customize
dilated mask attention modules where only partial valid tokens participate in
local-to-global attention, indicated by the dilated keyframe mask.
Additionally, we develop a simple yet effective smoothness prior, which steers
the generated frames towards seamless keyframe transitions at inference.
Extensive experiments show that our model not only achieves state-of-the-art
performance in terms of semantic fidelity, but more importantly, is able to
satisfy animator requirements through fine-grained guidance without tedious
labor.
- Abstract(参考訳): テキスト駆動のモーション合成技術の出現は、アニメーターに効率的に生成する大きな可能性を与える。
しかし、多くの場合、テキスト表現は一般的な動き記述と質的な動きしか含まないが、微妙な描写と十分な強度が欠如しており、合成された動きのどちらかに繋がる。
(a)意味的に適合するが、特定のポーズの詳細について制御できない、または
(b)提供された記述から逸脱し、望ましくない事例をアニメーターに持ち込む。
本稿では,キーフレームを用いたテキスト駆動モーション合成のための条件付き拡散モデルdiffkfcを提案し,協調的かつ効率的なデュアルレベル制御による現実的な生成を可能にする。
トレーニングのない条件を含む既存の推論編集拡散モデルとは異なり、条件拡散モデルは明示的に訓練されており、テキスト、キーフレームおよび拡散対象フレーム間の相関を完全に活用することができる。
離散キーフレームとスパースキーフレームの制御能力を維持するため,拡張されたキーフレームマスクで示される部分的有効トークンのみが局所的からグローバル的な注意を喚起する拡張マスクアテンションモジュールをカスタマイズする。
さらに,推論時に生成したフレームをシームレスなキーフレーム遷移へと制御する,単純かつ効果的なスムースネスを事前に開発する。
広範な実験により,我々のモデルは,意味的忠実性の観点から最先端のパフォーマンスを実現するだけでなく,さらに重要なこととして,退屈な労力を伴わずに細かな指導によってアニメーターの要求を満足できることを示した。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Flexible Motion In-betweening with Diffusion Models [16.295323675781184]
比較によって導かれる多様な人間の動きを生成する際の拡散モデルの可能性について検討する。
従来のインベントワイニング法とは異なり、精密かつ多様な動作を生成できる単純な統一モデルを提案する。
テキスト条件付きHumanML3Dデータセット上でのCondMDIの性能を評価する。
論文 参考訳(メタデータ) (2024-05-17T23:55:51Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Progressive Text-to-Image Diffusion with Soft Latent Direction [17.120153452025995]
本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
論文 参考訳(メタデータ) (2023-09-18T04:01:25Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。