論文の概要: Shushing! Let's Imagine an Authentic Speech from the Silent Video
- arxiv url: http://arxiv.org/abs/2503.14928v1
- Date: Wed, 19 Mar 2025 06:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:32.930571
- Title: Shushing! Let's Imagine an Authentic Speech from the Silent Video
- Title(参考訳): シャッシング! サイレントビデオの正当性に満ちたスピーチを想像してみよう
- Authors: Jiaxin Ye, Hongming Shan,
- Abstract要約: 視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。
近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。
ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
- 参考スコア(独自算出の注目度): 15.426152742881365
- License:
- Abstract: Vision-guided speech generation aims to produce authentic speech from facial appearance or lip motions without relying on auditory signals, offering significant potential for applications such as dubbing in filmmaking and assisting individuals with aphonia. Despite recent progress, existing methods struggle to achieve unified cross-modal alignment across semantics, timbre, and emotional prosody from visual cues, prompting us to propose Consistent Video-to-Speech (CV2S) as an extended task to enhance cross-modal consistency. To tackle emerging challenges, we introduce ImaginTalk, a novel cross-modal diffusion framework that generates faithful speech using only visual input, operating within a discrete space. Specifically, we propose a discrete lip aligner that predicts discrete speech tokens from lip videos to capture semantic information, while an error detector identifies misaligned tokens, which are subsequently refined through masked language modeling with BERT. To further enhance the expressiveness of the generated speech, we develop a style diffusion transformer equipped with a face-style adapter that adaptively customizes identity and prosody dynamics across both the channel and temporal dimensions while ensuring synchronization with lip-aware semantic features. Extensive experiments demonstrate that ImaginTalk can generate high-fidelity speech with more accurate semantic details and greater expressiveness in timbre and emotion compared to state-of-the-art baselines. Demos are shown at our project page: https://imagintalk.github.io.
- Abstract(参考訳): 視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真正な音声を生成することを目的としており、映画製作におけるダビングや無声者支援などの応用に有意義な可能性を秘めている。
近年の進歩にもかかわらず、既存の手法は、視覚的手がかりから意味論、音色、感情的韻律を統一したモーダルアライメントの実現に苦慮し、モーダルアライメントを高めるための拡張タスクとして、一貫性ビデオ・トゥ・スペーチ(CV2S)を提案する。
ImaginTalkは、視覚的入力のみを用いて忠実な音声を生成し、離散空間内で動作させる新しいクロスモーダル拡散フレームワークである。
具体的には、リップビデオから個別の音声トークンを予測してセマンティック情報をキャプチャする離散唇整合器を提案し、エラー検出器はミスアライメントされたトークンを識別し、その後、BERTによるマスク付き言語モデリングにより洗練する。
生成した音声の表現性を一層高めるため, パーソナリティと韻律のダイナミクスを適応的にカスタマイズし, 唇認識のセマンティック特徴との同期を確保できるフェイススタイルのアダプタを備えたスタイル拡散トランスフォーマを開発した。
広範囲な実験により、ImaginTalkは、最先端のベースラインと比較して、より正確なセマンティックディテールと、音色と感情の表現力を持つ高忠実な音声を生成できることが示されている。
デモはプロジェクトのページでご覧ください。
関連論文リスト
- SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - Emotional Face-to-Speech [13.725558939494407]
既存の音声合成手法は、アイデンティティの特徴を捉える上で大きな可能性を秘めているが、感情表現を伴う多様な声のスタイルを生成するのに苦労している。
DemoFaceは、離散拡散変換器(DiT)とカリキュラム学習を利用する新しい生成フレームワークである。
本研究では,多様な条件付きシナリオに対処し,多条件生成と複雑な属性の解離を効果的に行うための予測自由誘導法を開発した。
論文 参考訳(メタデータ) (2025-02-03T04:48:50Z) - JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。