論文の概要: ChatAnything: Facetime Chat with LLM-Enhanced Personas
- arxiv url: http://arxiv.org/abs/2311.06772v1
- Date: Sun, 12 Nov 2023 08:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:51:58.828377
- Title: ChatAnything: Facetime Chat with LLM-Enhanced Personas
- Title(参考訳): ChatAnything: LLM強化ペルソナによる顔チャット
- Authors: Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi
Feng, Daquan Zhou
- Abstract要約: 多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
- 参考スコア(独自算出の注目度): 87.76804680223003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we target generating anthropomorphized personas for
LLM-based characters in an online manner, including visual appearance,
personality and tones, with only text descriptions. To achieve this, we first
leverage the in-context learning capability of LLMs for personality generation
by carefully designing a set of system prompts. We then propose two novel
concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for
diverse voice and appearance generation. For MoV, we utilize the text-to-speech
(TTS) algorithms with a variety of pre-defined tones and select the most
matching one based on the user-provided text description automatically. For
MoD, we combine the recent popular text-to-image generation techniques and
talking head algorithms to streamline the process of generating talking
objects. We termed the whole framework as ChatAnything. With it, users could be
able to animate anything with any personas that are anthropomorphic using just
a few text inputs. However, we have observed that the anthropomorphic objects
produced by current generative models are often undetectable by pre-trained
face landmark detectors, leading to failure of the face motion generation, even
if these faces possess human-like appearances because those images are nearly
seen during the training (e.g., OOD samples). To address this issue, we
incorporate pixel-level guidance to infuse human face landmarks during the
image generation phase. To benchmark these metrics, we have built an evaluation
dataset. Based on it, we verify that the detection rate of the face landmark is
significantly increased from 57.0% to 92.5% thus allowing automatic face
animation based on generated speech content. The code and more results can be
found at https://chatanything.github.io/.
- Abstract(参考訳): 本報告では, テキスト記述のみを用いて, 視覚, パーソナリティ, 音色を含む, llmに基づく文字の擬人化人格生成を目標とした。
そこで我々はまず,システムプロンプトの集合を慎重に設計し,LLMのコンテキスト内学習能力を人格生成に活用する。
次に,音声の混合(MoV)とディフューザの混合(MoD)の2つの新しい概念を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義されたトーンで利用し,ユーザが提供するテキスト記述に基づいて最も一致するものを選択する。
MoDでは,最近普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
フレームワーク全体をchatanythingと呼んでいます。
これによってユーザーは、ほんの数個のテキスト入力を使って人為的なペルソナを何でもアニメーションできる。
しかし、現在の生成モデルによって生成された擬人化物は、事前訓練された顔ランドマーク検出器では検出できない場合が多く、訓練中にその画像がほとんど見られる(例えばoodサンプル)ため、顔の動き生成が失敗している。
この問題に対処するために、画像生成フェーズ中に人間の顔のランドマークを注入するためのピクセルレベルのガイダンスを組み込んだ。
これらの指標をベンチマークするために、評価データセットを構築しました。
これに基づいて,顔のランドマークの検出率は57.0%から92.5%に大幅に向上し,生成した音声コンテンツに基づいた自動顔アニメーションが可能となった。
コードはhttps://chatanything.github.io/にある。
関連論文リスト
- GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。
高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech [33.01930038988336]
我々は、Face-TTSと呼ばれる統合フレームワーク内に、顔スタイルの拡散テキスト音声(TTS)モデルを導入する。
我々は、顔画像と生成された音声セグメント間の話者識別を保持するために、クロスモデルバイオメトリックスとTSモデルを共同で訓練する。
生体情報を直接顔画像から抽出するので、未確認話者や未聴者から音声を生成するために、余分な微調整は不要である。
論文 参考訳(メタデータ) (2023-02-27T11:59:28Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。