論文の概要: Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation
- arxiv url: http://arxiv.org/abs/2401.08559v1
- Date: Tue, 16 Jan 2024 18:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:35:37.402820
- Title: Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation
- Title(参考訳): テキスト駆動3次元モーション生成のためのマルチトラック時系列制御
- Authors: Mathis Petrovich, Or Litany, Umar Iqbal, Michael J. Black, G\"ul
Varol, Xue Bin Peng, Davis Rempe
- Abstract要約: テキスト駆動動作合成におけるタイムライン制御の問題を紹介する。
ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。
マルチトラックタイムラインから合成アニメーションを生成するための新しいテスト時間復調手法を提案する。
- 参考スコア(独自算出の注目度): 68.70007851535203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative modeling have led to promising progress on
synthesizing 3D human motion from text, with methods that can generate
character animations from short prompts and specified durations. However, using
a single text prompt as input lacks the fine-grained control needed by
animators, such as composing multiple actions and defining precise durations
for parts of the motion. To address this, we introduce the new problem of
timeline control for text-driven motion synthesis, which provides an intuitive,
yet fine-grained, input interface for users. Instead of a single prompt, users
can specify a multi-track timeline of multiple prompts organized in temporal
intervals that may overlap. This enables specifying the exact timings of each
action and composing multiple actions in sequence or at overlapping intervals.
To generate composite animations from a multi-track timeline, we propose a new
test-time denoising method. This method can be integrated with any pre-trained
motion diffusion model to synthesize realistic motions that accurately reflect
the timeline. At every step of denoising, our method processes each timeline
interval (text prompt) individually, subsequently aggregating the predictions
with consideration for the specific body parts engaged in each action.
Experimental comparisons and ablations validate that our method produces
realistic motions that respect the semantics and timing of given text prompts.
Our code and models are publicly available at https://mathis.petrovich.fr/stmc.
- Abstract(参考訳): 最近の生成モデリングの進歩は、短いプロンプトと指定された持続時間から文字アニメーションを生成する手法によって、テキストから3d人間の動きを合成する有望な進歩をもたらした。
しかし、入力として単一のテキストプロンプトを使用すると、複数のアクションの作成や動きの一部の正確な時間の定義など、アニメーターが必要とする細かい制御が欠如する。
そこで本研究では,ユーザに対して直感的かつ細かな入力インタフェースを提供するテキスト駆動モーション合成のためのタイムライン制御の新たな問題を提案する。
単一のプロンプトではなく、複数のプロンプトの複数トラックタイムラインを、オーバーラップする可能性のある時間間隔で整理することができる。
これにより、各アクションの正確なタイミングを指定し、シーケンスまたは重なり合う間隔で複数のアクションを構成することができる。
マルチトラックタイムラインから合成アニメーションを生成するために,新しいテスト時間復調法を提案する。
この方法は、任意のトレーニング済みの運動拡散モデルと統合して、タイムラインを正確に反映する現実的な動きを合成することができる。
本手法は,各動作に係わる特定の身体部位を考慮し,各動作の時系列間隔(テキストプロンプト)を個別に処理し,予測を集約する。
実験による比較とアブレーションは,提案手法がテキストプロンプトの意味とタイミングを尊重する現実的な動作を生成することを検証している。
私たちのコードとモデルはhttps://mathis.petrovich.fr/stmcで公開されている。
関連論文リスト
- Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Generating Continual Human Motion in Diverse 3D Scenes [56.70255926954609]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。
本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。
我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文 参考訳(メタデータ) (2023-04-04T18:24:22Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Real-time Controllable Motion Transition for Characters [14.88407656218885]
リアルタイムの動作生成はゲームでは普遍的に必要であり、既存のアニメーションパイプラインでは非常に望ましい。
我々のアプローチは、運動多様体と条件遷移という2つの重要な構成要素から構成される。
提案手法は,複数の測定基準の下で測定された高品質な動きを生成できることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:02:54Z) - Synthesis of Compositional Animations from Textual Descriptions [54.85920052559239]
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
論文 参考訳(メタデータ) (2021-03-26T18:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。