論文の概要: T3M: Text Guided 3D Human Motion Synthesis from Speech
- arxiv url: http://arxiv.org/abs/2408.12885v1
- Date: Fri, 23 Aug 2024 07:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:49:48.553134
- Title: T3M: Text Guided 3D Human Motion Synthesis from Speech
- Title(参考訳): T3M:テキストガイドによる音声からの人体動作合成
- Authors: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang,
- Abstract要約: 音声駆動の3Dモーション合成は、人間の音声に基づくライフライクなアニメーションを作ろうとしている。
既存のアプローチは音声のみに応答して動作生成を行い、不正確で非フレキシブルな合成結果をもたらす。
テキスト誘導型3次元人体動作合成法「textitT3M」について述べる。
- 参考スコア(独自算出の注目度): 8.890280315046475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D motion synthesis seeks to create lifelike animations based on human speech, with potential uses in virtual reality, gaming, and the film production. Existing approaches reply solely on speech audio for motion generation, leading to inaccurate and inflexible synthesis results. To mitigate this problem, we introduce a novel text-guided 3D human motion synthesis method, termed \textit{T3M}. Unlike traditional approaches, T3M allows precise control over motion synthesis via textual input, enhancing the degree of diversity and user customization. The experiment results demonstrate that T3M can greatly outperform the state-of-the-art methods in both quantitative metrics and qualitative evaluations. We have publicly released our code at \href{https://github.com/Gloria2tt/T3M.git}{https://github.com/Gloria2tt/T3M.git}
- Abstract(参考訳): 音声駆動の3Dモーション合成は、バーチャルリアリティー、ゲーム、映画製作において潜在的に有用な、人間のスピーチに基づくライフスタイルのアニメーションを作成することを目指している。
既存のアプローチは音声のみに応答して動作生成を行い、不正確で非フレキシブルな合成結果をもたらす。
この問題を軽減するために,新しいテキスト誘導型3次元人体動作合成法である「textit{T3M}」を導入する。
従来のアプローチとは異なり、T3Mはテキスト入力による動作合成を正確に制御し、多様性とユーザのカスタマイズの度合いを高める。
実験の結果、T3Mは定量測定と定性評価の両方において最先端の手法を大幅に上回ることを示した。
原文(投稿日:2010/01/28)へのリンク 私たちは、コードを公開した。
関連論文リスト
- TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation [71.08922726494842]
テキスト駆動動作合成におけるタイムライン制御の問題を紹介する。
ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。
マルチトラックタイムラインから合成アニメーションを生成するための新しいテスト時間復調手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:39:15Z) - BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer [42.87095473590205]
音声からの3次元身体ジェスチャー自動合成のための新しいフレームワークを提案する。
本システムは,Trinity 音声位置推定データセットあるいは Talking With Hands 16.2M データセットを用いて学習する。
その結果,本システムは既存の最先端手法と比較して,より現実的で,適切で,多様な身体ジェスチャーを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-07T01:11:11Z) - Generating Continual Human Motion in Diverse 3D Scenes [56.70255926954609]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。
本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。
我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文 参考訳(メタデータ) (2023-04-04T18:24:22Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - Synthesis of Compositional Animations from Textual Descriptions [54.85920052559239]
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
論文 参考訳(メタデータ) (2021-03-26T18:23:29Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。