論文の概要: Audio2Rig: Artist-oriented deep learning tool for facial animation
- arxiv url: http://arxiv.org/abs/2405.20412v1
- Date: Thu, 30 May 2024 18:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:34:31.564982
- Title: Audio2Rig: Artist-oriented deep learning tool for facial animation
- Title(参考訳): Audio2Rig: 顔のアニメーションのためのアーティスト指向のディープラーニングツール
- Authors: Bastien Arcelin, Nicolas Chaverou,
- Abstract要約: Audio2Rigは、以前アニメーションされたショーのシーケンスを利用して、オーディオファイルから顔と唇のシンクリグアニメーションを生成する新しいディープラーニングツールだ。
マヤに拠点を置き、調整なしにあらゆるプロダクション・リグから学び、高品質でスタイリッシュなアニメーションを生成する。
提案手法は優れた結果を示し,番組スタイルを尊重しながら細かなアニメーションの細部を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating realistic or stylized facial and lip sync animation is a tedious task. It requires lot of time and skills to sync the lips with audio and convey the right emotion to the character's face. To allow animators to spend more time on the artistic and creative part of the animation, we present Audio2Rig: a new deep learning based tool leveraging previously animated sequences of a show, to generate facial and lip sync rig animation from an audio file. Based in Maya, it learns from any production rig without any adjustment and generates high quality and stylized animations which mimic the style of the show. Audio2Rig fits in the animator workflow: since it generates keys on the rig controllers, the animation can be easily retaken. The method is based on 3 neural network modules which can learn an arbitrary number of controllers. Hence, different configurations can be created for specific parts of the face (such as the tongue, lips or eyes). With Audio2Rig, animators can also pick different emotions and adjust their intensities to experiment or customize the output, and have high level controls on the keyframes setting. Our method shows excellent results, generating fine animation details while respecting the show style. Finally, as the training relies on the studio data and is done internally, it ensures data privacy and prevents from copyright infringement.
- Abstract(参考訳): リアルでスタイリッシュな顔と唇のシンクアニメーションを作るのは面倒な作業だ。
唇をオーディオと同期させ、正しい感情をキャラクターの顔に伝えるには、多くの時間とスキルが必要です。
アニメーションの芸術的かつ創造的な部分にアニメーターがより多くの時間を費やすことを可能にするために、我々はAudio2Rigという新しいディープラーニングベースのツールを紹介した。
マヤに拠点を置き、調整なしにあらゆるプロダクション・リグから学び、ショーのスタイルを模倣した高品質でスタイル化されたアニメーションを生成する。
Audio2Rigはアニメーターのワークフローに適合する: rigコントローラのキーを生成するので、アニメーションを簡単に取り込むことができる。
この手法は、3つのニューラルネットワークモジュールに基づいており、任意の数のコントローラを学習することができる。
したがって、顔の特定の部分(舌、唇、目など)に対して異なる構成をすることができる。
Audio2Rigを使用すると、アニメーターは異なる感情を選択し、出力を実験したりカスタマイズしたりするためにその強度を調整することができ、キーフレームの設定に対して高いレベルのコントロールを持つことができる。
提案手法は優れた結果を示し,番組スタイルを尊重しながら細かなアニメーションの細部を生成する。
最後に、トレーニングはスタジオのデータに依存し、内部で行われるため、データのプライバシが保証され、著作権侵害が防止される。
関連論文リスト
- FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [65.64014682930164]
スケッチアニメーションは、単純なフリップブックの落書きからプロのスタジオプロダクションまで、ビジュアルなストーリーテリングのための強力な媒体を提供する。
FlipSketchは、フリップブックアニメーションの魔法を復活させるシステムです。
論文 参考訳(メタデータ) (2024-11-16T14:53:03Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - Breathing Life Into Sketches Using Text-to-Video Priors [101.8236605955899]
スケッチは、人間が自分のアイデアを視覚的に伝えるために使う最も直感的で汎用性の高いツールの1つです。
本研究では,単一オブジェクトのスケッチに動きを自動的に付加する手法を提案する。
出力はベクトル表現で提供される短いアニメーションで、簡単に編集できる。
論文 参考訳(メタデータ) (2023-11-21T18:09:30Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Learning Audio-Driven Viseme Dynamics for 3D Face Animation [17.626644507523963]
入力音声からリアルな唇同期3Dアニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。
提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。
論文 参考訳(メタデータ) (2023-01-15T09:55:46Z) - SketchBetween: Video-to-Video Synthesis for Sprite Animation via
Sketches [0.9645196221785693]
2Dアニメーションは、キャラクター、エフェクト、バックグラウンドアートに使用されるゲーム開発において一般的な要素である。
アニメーションの自動化アプローチは存在するが、アニメーションを念頭に置いて設計されている。
本稿では,アニメーションの標準的なワークフローにより密着した問題定式化を提案する。
論文 参考訳(メタデータ) (2022-09-01T02:43:19Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - A Robust Interactive Facial Animation Editing System [0.0]
直感的な制御パラメータの集合から顔のアニメーションを簡単に編集するための学習に基づく新しいアプローチを提案する。
我々は、制御パラメータを結合係数列にマップする分解能保存完全畳み込みニューラルネットワークを使用している。
提案システムは頑丈で,非専門ユーザからの粗大で誇張された編集を処理できる。
論文 参考訳(メタデータ) (2020-07-18T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。