論文の概要: CLIP-Actor: Text-Driven Recommendation and Stylization for Animating
Human Meshes
- arxiv url: http://arxiv.org/abs/2206.04382v1
- Date: Thu, 9 Jun 2022 09:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:27:16.206325
- Title: CLIP-Actor: Text-Driven Recommendation and Stylization for Animating
Human Meshes
- Title(参考訳): CLIP-Actor:人間のメッシュをアニメーションするためのテキスト駆動レコメンデーションとスティル化
- Authors: Kim Youwang, Kim Ji-Yeon, Tae-Hyun Oh
- Abstract要約: 人間のメッシュアニメーションのためのテキスト駆動型モーションレコメンデーションとニューラルネットワークスタイリングシステムであるCLIP-Actorを提案する。
モーションシーケンスを推奨し、メッシュスタイルの属性を学習することで、テキストプロンプトに適合するように3Dのヒューマンメッシュを設計する。
CLIP-Actorは、自然言語のプロンプトから詳細な幾何学とテクスチャを用いて、可塑性で人間認識可能な3次元人体メッシュを動作させることを実証した。
- 参考スコア(独自算出の注目度): 17.22112222736234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose CLIP-Actor, a text-driven motion recommendation and neural mesh
stylization system for human mesh animation. CLIP-Actor animates a 3D human
mesh to conform to a text prompt by recommending a motion sequence and learning
mesh style attributes. Prior work fails to generate plausible results when the
artist-designed mesh content does not conform to the text from the beginning.
Instead, we build a text-driven human motion recommendation system by
leveraging a large-scale human motion dataset with language labels. Given a
natural language prompt, CLIP-Actor first suggests a human motion that conforms
to the prompt in a coarse-to-fine manner. Then, we propose a
synthesize-through-optimization method that detailizes and texturizes a
recommended mesh sequence in a disentangled way from the pose of each frame. It
allows the style attribute to conform to the prompt in a temporally-consistent
and pose-agnostic manner. The decoupled neural optimization also enables
spatio-temporal view augmentation from multi-frame human motion. We further
propose the mask-weighted embedding attention, which stabilizes the
optimization process by rejecting distracting renders containing scarce
foreground pixels. We demonstrate that CLIP-Actor produces plausible and
human-recognizable style 3D human mesh in motion with detailed geometry and
texture from a natural language prompt.
- Abstract(参考訳): 本稿では,人間のメッシュアニメーションのためのクリップアクタ,テキスト駆動モーションレコメンデーションおよびニューラルネットワークスタイライゼーションシステムを提案する。
CLIP-Actorは、モーションシーケンスとメッシュスタイルの属性を推奨することで、テキストプロンプトに適合するように3Dのヒューマンメッシュをアニメイトする。
アーティストが設計したメッシュコンテントが最初からテキストに適合しない場合、先行作業は妥当な結果を生み出すことができない。
代わりに、言語ラベル付き大規模ヒューマンモーションデータセットを活用して、テキスト駆動のヒューマンモーションレコメンデーションシステムを構築する。
自然言語のプロンプトが与えられた場合、CLIP-Actorはまず、粗い方法でプロンプトに適合する人間の動きを示唆する。
そこで本研究では,各フレームのポーズから不連続な方法で,推奨メッシュシーケンスを詳述し,テキスト化する合成・スルー最適化手法を提案する。
スタイル属性は、時間的に一貫性があり、ポーズに依存しない方法でプロンプトに適合する。
分離されたニューラル最適化はまた、多フレームの人間の動きから時空間的なビューの増大を可能にする。
また,前景画素の少ない配置を省略することで,最適化プロセスの安定化を図るマスク重み埋め込み注意を提案する。
クリップアクタは,自然言語プロンプトから詳細な形状とテクスチャを付加した,有理で人間が認識可能な3dヒューマンメッシュを動作させる。
関連論文リスト
- Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Disentangled Clothed Avatar Generation from Text Descriptions [41.01453534915251]
本稿では,人体と衣服を別々に生成する新しいテキスト・トゥ・アバター生成手法を提案する。
提案手法は,テクスチャやテクスチャの質の向上,テキストプロンプトとのセマンティックアライメントの向上を実現する。
論文 参考訳(メタデータ) (2023-12-08T18:43:12Z) - ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment [5.516575655881858]
本稿では、感情のプロンプトとして自然言語を活用することにより、任意のスタイルの制御を可能にする手法を提案する。
提案手法は,表現力のある表情生成を実現し,所望のスタイルを効果的に伝達する柔軟性を向上する。
論文 参考訳(メタデータ) (2023-08-28T09:35:13Z) - TADA! Text to Animatable Digital Avatars [57.52707683788961]
TADAはテキスト記述を取り込み、高品質な幾何学とライフスタイルのテクスチャを備えた表現力のある3Dアバターを生産する。
我々は3次元変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導出した。
我々は、生成した文字の正規表現とRGB画像をレンダリングし、SDSトレーニングプロセスにおけるそれらの潜伏埋め込みを利用する。
論文 参考訳(メタデータ) (2023-08-21T17:59:10Z) - Unsupervised Learning of Style-Aware Facial Animation from Real Acting
Performances [3.95944314850151]
本稿では, ブレンド形状, 動的テクスチャ, ニューラルレンダリングに基づく写真リアルな頭部モデルのテキスト/音声駆動アニメーションのための新しい手法を提案する。
本手法は,テキストや音声をアニメーションパラメータの列に変換する条件付きCNNに基づいている。
リアルなリアルタイムレンダリングのために、私たちは、改良された色と前景マットを演算することで、ピクセル化ベースのレンダリングを洗練するU-Netを訓練します。
論文 参考訳(メタデータ) (2023-06-16T17:58:04Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Text2Mesh: Text-Driven Neural Stylization for Meshes [18.435567297462416]
筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。
ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。
スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
論文 参考訳(メタデータ) (2021-12-06T18:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。