論文の概要: Understanding Text-driven Motion Synthesis with Keyframe Collaboration
via Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.13773v1
- Date: Tue, 23 May 2023 07:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:15:39.689819
- Title: Understanding Text-driven Motion Synthesis with Keyframe Collaboration
via Diffusion Models
- Title(参考訳): 拡散モデルによるキーフレーム協調によるテキスト駆動動作合成の理解
- Authors: Dong Wei, Xiaoning Sun, Huaijiang Sun, Bin Li, Shengxiang Hu, Weiqing
Li, Jianfeng Lu
- Abstract要約: アニメーターを用いたテキスト駆動モーション合成のための条件拡散モデルDiffKFCを提案する。
我々は,HumanML3DとKITのテキスト・トゥ・モーション・データセット上で,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 22.354538952573158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of text-driven motion synthesis technique provides animators
with great potential to create efficiently. However, in most cases, textual
expressions only contain general and qualitative motion descriptions, while
lack fine depiction and sufficient intensity, leading to the synthesized
motions that either (a) semantically compliant but uncontrollable over specific
pose details, or (b) even deviates from the provided descriptions, bringing
animators with undesired cases. In this paper, we propose DiffKFC, a
conditional diffusion model for text-driven motion synthesis with keyframes
collaborated. Different from plain text-driven designs, full interaction among
texts, keyframes and the rest diffused frames are conducted at training,
enabling realistic generation under efficient, collaborative dual-level
control: coarse guidance at semantic level, with only few keyframes for direct
and fine-grained depiction down to body posture level, to satisfy animator
requirements without tedious labor. Specifically, we customize efficient
Dilated Mask Attention modules, where only partial valid tokens participate in
local-to-global attention, indicated by the dilated keyframe mask. For user
flexibility, DiffKFC supports adjustment on importance of fine-grained keyframe
control. Experimental results show that our model achieves state-of-the-art
performance on text-to-motion datasets HumanML3D and KIT.
- Abstract(参考訳): テキスト駆動のモーション合成技術の出現は、アニメーターに効率的に生成する大きな可能性を与える。
しかし、多くの場合、テキスト表現は一般的な動き記述と質的な動きしか含まないが、微妙な描写と十分な強度が欠如しており、合成された動きのどちらかに繋がる。
(a)意味的に適合するが、特定のポーズの詳細について制御できない、または
(b)提供された記述から逸脱し、望ましくない事例をアニメーターに持ち込む。
本稿では,鍵フレームを用いたテキスト駆動動作合成のための条件拡散モデルDiffKFCを提案する。
平易なテキスト駆動設計とは異なり、テキスト、キーフレーム、その他の拡散フレーム間の完全な相互作用は訓練時に行われ、効率的で協調的な二重レベル制御の下で現実的な生成を可能にする。
具体的にはDilated Mask Attentionモジュールをカスタマイズし、拡張鍵フレームマスクで示される部分有効なトークンのみを局所的・言語的注意に限定する。
ユーザの柔軟性のために、DiffKFCはきめ細かいキーフレーム制御の重要性の調整をサポートする。
実験結果から,HumanML3DとKITのテキスト・トゥ・モーション・データセット上での最先端性能が得られた。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Flexible Motion In-betweening with Diffusion Models [16.295323675781184]
比較によって導かれる多様な人間の動きを生成する際の拡散モデルの可能性について検討する。
従来のインベントワイニング法とは異なり、精密かつ多様な動作を生成できる単純な統一モデルを提案する。
テキスト条件付きHumanML3Dデータセット上でのCondMDIの性能を評価する。
論文 参考訳(メタデータ) (2024-05-17T23:55:51Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Progressive Text-to-Image Diffusion with Soft Latent Direction [17.120153452025995]
本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
論文 参考訳(メタデータ) (2023-09-18T04:01:25Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。