Fugu-MT 論文翻訳(概要): AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

論文の概要: AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

arxiv url: http://arxiv.org/abs/2502.13133v1
Date: Tue, 18 Feb 2025 18:56:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:09.141304
Title: AV-Flow: Transforming Text to Audio-Visual Human-like Interactions
Title（参考訳）: AV-Flow: テキストを人間の視覚的インタラクションに変換する
Authors: Aggelina Chatziagapi, Louis-Philippe Morency, Hongyu Gong, Michael Zollhoefer, Dimitris Samaras, Alexander Richard,
Abstract要約: AV-Flowは、テキスト入力のみを与えられた写真リアリスティックな4D音声アバターを識別するオーディオ視覚生成モデルである。人間の音声合成, 唇の動きの同期, 表情の鮮やかさ, 頭ポーズを実演した。
参考スコア（独自算出の注目度）: 101.31009576033776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce AV-Flow, an audio-visual generative model that animates photo-realistic 4D talking avatars given only text input. In contrast to prior work that assumes an existing speech signal, we synthesize speech and vision jointly. We demonstrate human-like speech synthesis, synchronized lip motion, lively facial expressions and head pose; all generated from just text characters. The core premise of our approach lies in the architecture of our two parallel diffusion transformers. Intermediate highway connections ensure communication between the audio and visual modalities, and thus, synchronized speech intonation and facial dynamics (e.g., eyebrow motion). Our model is trained with flow matching, leading to expressive results and fast inference. In case of dyadic conversations, AV-Flow produces an always-on avatar, that actively listens and reacts to the audio-visual input of a user. Through extensive experiments, we show that our method outperforms prior work, synthesizing natural-looking 4D talking avatars. Project page: https://aggelinacha.github.io/AV-Flow/
Abstract（参考訳）: AV-Flowは,テキスト入力のみを付与した写真リアルな4D音声アバターを識別する音声視覚生成モデルである。既存の音声信号を想定した先行研究とは対照的に,音声と視覚を共同で合成する。人間の音声合成, 唇の動きの同期, 生き生きとした表情, 頭ポーズを, すべて文字のみから生成した。このアプローチの中核となる前提は、2つの並列拡散変換器のアーキテクチャにある。中間ハイウェイ接続は、音声と視覚のモダリティ間の通信を保証するため、同期された音声のイントネーションと顔の動き(例えば、眼球運動)が可能である。我々のモデルはフローマッチングで訓練され、表現力のある結果と高速な推論につながります。ダイアディックな会話の場合、AV-Flowは常時オンのアバターを生成し、ユーザの音声視覚入力に積極的に耳を傾け、反応する。広範にわたる実験により,本手法は従来の作業よりも優れており,自然な4D音声アバターを合成する。プロジェクトページ: https://aggelinacha.github.io/AV-Flow/

関連論文リスト

Supervising 3D Talking Head Avatars with Analysis-by-Audio-Synthesis [44.503709089687014]
本稿では,3次元対話型アバターフレームワークTHUNDERを提案する。 THUNDERは、多彩で高品質で表現力のある表情のアニメーションを生成できる一方で、会話ヘッドアバターのリップシンクの質を著しく向上させることを示した。
論文参考訳（メタデータ） (2025-04-18T00:24:52Z)
INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [11.101103116878438]
本稿では,Dyadic インタラクションのための新しい音声駆動型ヘッド生成フレームワーク INFP を提案する。 INFPは、モーションベースヘッドイミテーションステージとオーディオガイドモーションジェネレーションステージで構成される。このような研究を円滑に進めるために,インターネットから収集したリッチな対話の大規模データセットであるDyConvを紹介した。
論文参考訳（メタデータ） (2024-12-05T10:20:34Z)
GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文参考訳（メタデータ） (2024-11-27T18:54:08Z)
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。 NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文参考訳（メタデータ） (2023-12-11T18:41:55Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文参考訳（メタデータ） (2023-06-06T08:50:13Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文参考訳（メタデータ） (2021-12-06T02:53:51Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。