論文の概要: FT2TF: First-Person Statement Text-To-Talking Face Generation
- arxiv url: http://arxiv.org/abs/2312.05430v2
- Date: Tue, 19 Nov 2024 22:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:44.095178
- Title: FT2TF: First-Person Statement Text-To-Talking Face Generation
- Title(参考訳): FT2TF:最初の個人向けテキスト・ツー・トーク・フェイスジェネレーション
- Authors: Xingjian Diao, Ming Cheng, Wayner Barrios, SouYoung Jin,
- Abstract要約: FT2TF-Person文のテキスト・トゥ・トーク・フェイスジェネレーションを提案する。
これは、一対一のステートメントテキストによって駆動される顔生成のための、新しいワンステージのエンドツーエンドパイプラインである。
私たちのモデルは、推論中に他のソース(例えば、オーディオ/ランドマーク/目的)を使わずに、視覚情報とテキスト情報のみを活用する。
- 参考スコア(独自算出の注目度): 5.483057233818214
- License:
- Abstract: Talking face generation has gained immense popularity in the computer vision community, with various applications including AR, VR, teleconferencing, digital assistants, and avatars. Traditional methods are mainly audio-driven, which have to deal with the inevitable resource-intensive nature of audio storage and processing. To address such a challenge, we propose FT2TF - First-Person Statement Text-To-Talking Face Generation, a novel one-stage end-to-end pipeline for talking face generation driven by first-person statement text. Different from previous work, our model only leverages visual and textual information without any other sources (e.g., audio/landmark/pose) during inference. Extensive experiments are conducted on LRS2 and LRS3 datasets, and results on multi-dimensional evaluation metrics are reported. Both quantitative and qualitative results showcase that FT2TF outperforms existing relevant methods and reaches the state-of-the-art. This achievement highlights our model's capability to bridge first-person statements and dynamic face generation, providing insightful guidance for future work.
- Abstract(参考訳): AR、VR、テレカンファレンス、デジタルアシスタント、アバターなど様々な応用がある。
従来の手法は主にオーディオ駆動であり、オーディオストレージと処理の必然的なリソース集約性に対処する必要がある。
このような課題に対処するために、一対一の文文で駆動される一対一の対面生成のための新しいエンドツーエンドパイプラインであるFT2TF - First-Person Statement Text-To-Talking Face Generationを提案する。
従来の研究と異なり、我々のモデルは推論中に他の情報源(例えば、オーディオ/ランドマーク/目的)を使わずに、視覚情報とテキスト情報のみを活用する。
LRS2 と LRS3 のデータセットに対して大規模な実験を行い、多次元評価指標の結果を報告する。
定量的および定性的な結果は、FT2TFが既存の関連手法より優れ、最先端に到達していることを示している。
この成果は、1対1のステートメントと動的顔生成を橋渡しするモデルの能力を強調し、将来の作業に対する洞察力のあるガイダンスを提供する。
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Faces that Speak: Jointly Synthesising Talking Face and Speech from Text [22.87082439322244]
本研究では,TFG (Talking Face Generation) とTTS (Text-to-Speech) システムを統合されたフレームワークに統合することで実現した。
課題は,(1)実世界のシナリオを表わす一連の頭部ポーズを生成すること,(2)同一人物の顔の動きの変化に拘わらず,声の一貫性を確保すること,である。
実験により,本手法は,入力テキストと正確に一致した自然な表情と音声を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2024-05-16T17:29:37Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。