論文の概要: FREAK: Frequency-modulated High-fidelity and Real-time Audio-driven Talking Portrait Synthesis
- arxiv url: http://arxiv.org/abs/2503.04067v1
- Date: Thu, 06 Mar 2025 03:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:42.813735
- Title: FREAK: Frequency-modulated High-fidelity and Real-time Audio-driven Talking Portrait Synthesis
- Title(参考訳): FREAK:周波数変調された高忠実かつリアルタイム音声駆動型トーキング画像合成
- Authors: Ziqi Ni, Ao Fu, Yi Zhou,
- Abstract要約: FREAK という,周波数変調,高忠実,リアルタイムのオーディオ駆動型talKing ポートレート合成フレームワークを提案する。
F FREAKは、周波数領域の観点から肖像画を語るモデルであり、合成された肖像画の忠実性と自然性を高める。
提案手法は, 顔のテクスチャを詳細に表現し, 高精度な唇同期をリアルタイムに実現し, 高い忠実度を呈するポートレートを合成できることを実証した。
- 参考スコア(独自算出の注目度): 4.03322932416974
- License:
- Abstract: Achieving high-fidelity lip-speech synchronization in audio-driven talking portrait synthesis remains challenging. While multi-stage pipelines or diffusion models yield high-quality results, they suffer from high computational costs. Some approaches perform well on specific individuals with low resources, yet still exhibit mismatched lip movements. The aforementioned methods are modeled in the pixel domain. We observed that there are noticeable discrepancies in the frequency domain between the synthesized talking videos and natural videos. Currently, no research on talking portrait synthesis has considered this aspect. To address this, we propose a FREquency-modulated, high-fidelity, and real-time Audio-driven talKing portrait synthesis framework, named FREAK, which models talking portraits from the frequency domain perspective, enhancing the fidelity and naturalness of the synthesized portraits. FREAK introduces two novel frequency-based modules: 1) the Visual Encoding Frequency Modulator (VEFM) to couple multi-scale visual features in the frequency domain, better preserving visual frequency information and reducing the gap in the frequency spectrum between synthesized and natural frames. and 2) the Audio Visual Frequency Modulator (AVFM) to help the model learn the talking pattern in the frequency domain and improve audio-visual synchronization. Additionally, we optimize the model in both pixel domain and frequency domain jointly. Furthermore, FREAK supports seamless switching between one-shot and video dubbing settings, offering enhanced flexibility. Due to its superior performance, it can simultaneously support high-resolution video results and real-time inference. Extensive experiments demonstrate that our method synthesizes high-fidelity talking portraits with detailed facial textures and precise lip synchronization in real-time, outperforming state-of-the-art methods.
- Abstract(参考訳): 音声駆動音声画像合成における高忠実度唇音声同期の実現はいまだに困難である。
多段パイプラインや拡散モデルは高品質な結果をもたらすが、高い計算コストに悩まされる。
いくつかのアプローチは、資源の少ない特定の個人に対して良好に機能するが、いまだに不適合な唇の動きを示す。
上記の方法はピクセル領域でモデル化される。
音声合成ビデオと自然ビデオの間には,周波数領域に顕著な相違があることが観察された。
現在では、この側面を考慮に入れた肖像画合成の研究は行われていない。
そこで本研究では、周波数領域の観点から画像の合成をモデル化し、合成された画像の忠実度と自然性を高めるFREquency-modulated, High-fidelity, and Real-time Audio-driven talKing portrait synthesis framework(FREAK)を提案する。
FREAKは2つの新しい周波数ベースのモジュールを導入した。
1) 視覚符号化周波数変調器 (VEFM) は, 周波数領域における複数の視覚的特徴を分解し, 視覚周波数情報の保存性を高め, 合成フレームと自然フレームの周波数スペクトルのギャップを小さくする。
そして
2)AVFM(Audio Visual Frequency Modulator)は,周波数領域の発話パターンを学習し,音声と視覚の同期を改善する。
さらに,画素領域と周波数領域を併用してモデルを最適化する。
さらに、FREAKはワンショットとビデオダビング設定のシームレスな切り替えをサポートし、柔軟性を向上させる。
優れた性能のため、高解像度のビデオ結果とリアルタイム推論を同時にサポートすることができる。
広汎な実験により, 顔のテクスチャを詳細に表現し, 高精度な唇同期をリアルタイムに実現し, 高い忠実度を呈する人物像を合成できることが実証された。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Learning Spatiotemporal Frequency-Transformer for Low-Quality Video
Super-Resolution [47.5883522564362]
Video Super-Resolution (VSR)は、高解像度(HR)ビデオを低解像度(LR)ビデオから復元することを目的としている。
既存のVSR技術は通常、近くのフレームから既知の劣化プロセスでテクスチャを抽出することでHRフレームを復元する。
本稿では,空間-時間-周波数領域の組み合わせで自己アテンションを行う低品質ビデオを扱うための新しい周波数変換器(FTVSR)を提案する。
論文 参考訳(メタデータ) (2022-12-27T16:26:15Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z) - Delving into the Frequency: Temporally Consistent Human Motion Transfer
in the Fourier Space [34.353035276767336]
人間の動き伝達は、写真リアリスティックビデオと時間的に一貫性のあるビデオの合成を指す。
現在の合成ビデオは、ビデオの品質を著しく低下させるシーケンシャルフレームにおける時間的不整合に悩まされている。
本稿では,FreMOTRと命名された新しい周波数ベースのヒューマンモードTRansferフレームワークを提案し,合成ビデオの空間的アーティファクトと時間的不整合を効果的に緩和する。
論文 参考訳(メタデータ) (2022-09-01T05:30:23Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Spatiotemporal Augmentation on Selective Frequencies for Video
Representation Learning [36.352159541825095]
ビデオ表現のための周波数領域におけるデータ拡張をフィルタするFreqAugを提案する。
FreqAugは、空間的または時間的低周波成分をドロップすることで、ビデオのダイナミック機能にもっとフォーカスするようにモデルをプッシュする。
提案手法の汎用性を検証するため,FreqAugを複数の自己教師型学習フレームワーク上で実験し,標準拡張を行った。
論文 参考訳(メタデータ) (2022-04-08T06:19:32Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。