論文の概要: Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with
Instructions
- arxiv url: http://arxiv.org/abs/2306.10813v1
- Date: Mon, 19 Jun 2023 10:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:16:23.570531
- Title: Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with
Instructions
- Title(参考訳): instruct-neuraltalker: 命令による音声駆動発声野の編集
- Authors: Yuqi Sun, Reian He, Weimin Tan and Bo Yan
- Abstract要約: 近年のニューラル・トーキング・ラジアンス・フィールド法は,音声駆動型音声合成において大きな成功を収めている。
このような暗黙的な神経表現を人間の指示で編集する新しい対話型フレームワークを提案する。
我々の手法は、最先端の手法に比べてレンダリング品質が大幅に向上する。
- 参考スコア(独自算出の注目度): 14.5866871938831
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent neural talking radiance field methods have shown great success in
photorealistic audio-driven talking face synthesis. In this paper, we propose a
novel interactive framework that utilizes human instructions to edit such
implicit neural representations to achieve real-time personalized talking face
generation. Given a short speech video, we first build an efficient talking
radiance field, and then apply the latest conditional diffusion model for image
editing based on the given instructions and guiding implicit representation
optimization towards the editing target. To ensure audio-lip synchronization
during the editing process, we propose an iterative dataset updating strategy
and utilize a lip-edge loss to constrain changes in the lip region. We also
introduce a lightweight refinement network for complementing image details and
achieving controllable detail generation in the final rendered image. Our
method also enables real-time rendering at up to 30FPS on consumer hardware.
Multiple metrics and user verification show that our approach provides a
significant improvement in rendering quality compared to state-of-the-art
methods.
- Abstract(参考訳): 最近のニューラルな話し声場法は、フォトリアリスティックな音声駆動音声合成において大きな成功を収めている。
本稿では,人間の指示を利用して暗黙的表現を編集し,リアルタイムな対話型顔生成を実現する対話型フレームワークを提案する。
短い音声ビデオが与えられたら、まず効率的な発声場を構築し、与えられた指示に基づいて最新の条件拡散モデルを画像編集に適用し、暗黙的表現最適化を編集対象に導く。
編集過程における音声-リップ同期を確保するため,反復的なデータセット更新戦略を提案し,唇領域の変化を抑制するためにリップエッジロスを利用する。
また,画像細部を補完し,最終的なレンダリング画像で制御可能な細部生成を実現する軽量な細部ネットワークを提案する。
また,コンシューマハードウェア上で最大30FPSのリアルタイムレンダリングを可能にする。
複数のメトリクスとユーザ検証によって、このアプローチは最先端のメソッドに比べてレンダリング品質が大幅に向上することを示している。
関連論文リスト
- Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。
画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。
また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文 参考訳(メタデータ) (2024-05-23T15:42:34Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - VideoReTalking: Audio-based Lip Synchronization for Talking Head Video
Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。
感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文 参考訳(メタデータ) (2022-11-27T08:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。