Fugu-MT 論文翻訳(概要): FT2TF: First-Person Statement Text-To-Talking Face Generation

論文の概要: FT2TF: First-Person Statement Text-To-Talking Face Generation

arxiv url: http://arxiv.org/abs/2312.05430v1
Date: Sat, 9 Dec 2023 01:45:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 20:59:49.359300
Title: FT2TF: First-Person Statement Text-To-Talking Face Generation
Title（参考訳）: FT2TF:個人初のテキスト対会話顔生成
Authors: Xingjian Diao, Ming Cheng, Wayner Barrios, SouYoung Jin
Abstract要約: FT2TF-Person文のテキスト・トゥ・トーク・フェイスジェネレーションを提案する。これは、一対一のステートメントテキストによって駆動される顔生成のための、新しいワンステージのエンドツーエンドパイプラインである。対応する入力テキストを変更することで、表情の正確な操作を実現する。
参考スコア（独自算出の注目度）: 5.989846127800423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talking face generation has gained immense popularity in the computer vision community, with various applications including AR/VR, teleconferencing, digital assistants, and avatars. Traditional methods are mainly audio-driven ones which have to deal with the inevitable resource-intensive nature of audio storage and processing. To address such a challenge, we propose FT2TF - First-Person Statement Text-To-Talking Face Generation, a novel one-stage end-to-end pipeline for talking face generation driven by first-person statement text. Moreover, FT2TF implements accurate manipulation of the facial expressions by altering the corresponding input text. Different from previous work, our model only leverages visual and textual information without any other sources (e.g. audio/landmark/pose) during inference. Extensive experiments are conducted on LRS2 and LRS3 datasets, and results on multi-dimensional evaluation metrics are reported. Both quantitative and qualitative results showcase that FT2TF outperforms existing relevant methods and reaches the state-of-the-art. This achievement highlights our model capability to bridge first-person statements and dynamic face generation, providing insightful guidance for future work.
Abstract（参考訳）: コンピュータビジョンのコミュニティでは、AR/VR、テレカンファレンス、デジタルアシスタント、アバターなど様々な応用によって、顔生成が広く普及している。従来の手法は主にオーディオ駆動方式であり、オーディオストレージと処理の必然的なリソース集約性に対処しなければならない。このような課題に対処するために、一対一の文文で駆動される一対一の対面生成のための新しいエンドツーエンドパイプラインであるFT2TF - First-Person Statement Text-To-Talking Face Generationを提案する。さらにft2tfは、対応する入力テキストを変更して表情を正確に操作する。従来の研究と異なり、我々のモデルは推論中に他のソース(例えばオーディオ/ランドマーク/目的)を使わずに、視覚情報とテキスト情報のみを利用する。 LRS2 と LRS3 のデータセットに対して大規模な実験を行い、多次元評価指標の結果を報告する。定量的および定性的な結果は、FT2TFが既存の関連手法より優れ、最先端に到達していることを示している。この成果は、ファーストパーソンステートメントと動的顔生成を橋渡しするモデル能力を強調し、将来の作業に対する洞察に富んだガイダンスを提供します。

関連論文リスト

Advancing Talking Head Generation: A Comprehensive Survey of Multi-Modal Methodologies, Datasets, Evaluation Metrics, and Loss Functions [0.0]
トーキングヘッドジェネレーション (THG) はコンピュータビジョンにおけるトランスフォーメーション技術として登場した。本稿では,音声音声生成のための方法論とフレームワークについて概観する。この研究は、事前訓練されたモデルへの依存、極端なポーズハンドリング、多言語合成、時間的一貫性といった課題を特定する。
論文参考訳（メタデータ） (2025-06-23T06:49:42Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。 NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文参考訳（メタデータ） (2023-12-11T18:41:55Z)
Parametric Implicit Face Representation for Audio-Driven Facial Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文参考訳（メタデータ） (2023-06-13T07:08:22Z)
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文参考訳（メタデータ） (2023-06-06T08:50:13Z)
Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文参考訳（メタデータ） (2023-03-10T15:35:11Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。既存の手法のほとんどは、一人称音声音声生成に重点を置いている。ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-15T14:16:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。