Fugu-MT 論文翻訳(概要): Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with Instructions

論文の概要: Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with Instructions

arxiv url: http://arxiv.org/abs/2306.10813v2
Date: Wed, 16 Aug 2023 08:02:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 16:41:53.478746
Title: Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with Instructions
Title（参考訳）: instruct-neuraltalker: 命令による音声駆動発声野の編集
Authors: Yuqi Sun, Ruian He, Weimin Tan and Bo Yan
Abstract要約: 近年のニューラル・トーキング・ラジアンス・フィールド法は,音声駆動型音声合成において大きな成功を収めている。このような暗黙的な神経表現を人間の指示で編集する新しい対話型フレームワークを提案する。我々の手法は、最先端の手法に比べてレンダリング品質が大幅に向上する。
参考スコア（独自算出の注目度）: 16.45538217622068
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent neural talking radiance field methods have shown great success in photorealistic audio-driven talking face synthesis. In this paper, we propose a novel interactive framework that utilizes human instructions to edit such implicit neural representations to achieve real-time personalized talking face generation. Given a short speech video, we first build an efficient talking radiance field, and then apply the latest conditional diffusion model for image editing based on the given instructions and guiding implicit representation optimization towards the editing target. To ensure audio-lip synchronization during the editing process, we propose an iterative dataset updating strategy and utilize a lip-edge loss to constrain changes in the lip region. We also introduce a lightweight refinement network for complementing image details and achieving controllable detail generation in the final rendered image. Our method also enables real-time rendering at up to 30FPS on consumer hardware. Multiple metrics and user verification show that our approach provides a significant improvement in rendering quality compared to state-of-the-art methods.
Abstract（参考訳）: 最近のニューラルな話し声場法は、フォトリアリスティックな音声駆動音声合成において大きな成功を収めている。本稿では,人間の指示を利用して暗黙的表現を編集し,リアルタイムな対話型顔生成を実現する対話型フレームワークを提案する。短い音声ビデオが与えられたら、まず効率的な発声場を構築し、与えられた指示に基づいて最新の条件拡散モデルを画像編集に適用し、暗黙的表現最適化を編集対象に導く。編集過程における音声-リップ同期を確保するため,反復的なデータセット更新戦略を提案し,唇領域の変化を抑制するためにリップエッジロスを利用する。また,画像細部を補完し,最終的なレンダリング画像で制御可能な細部生成を実現する軽量な細部ネットワークを提案する。また,コンシューマハードウェア上で最大30FPSのリアルタイムレンダリングを可能にする。複数のメトリクスとユーザ検証によって、このアプローチは最先端のメソッドに比べてレンダリング品質が大幅に向上することを示している。

関連論文リスト

EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers [3.3508228801277853]
オーディオ駆動ビデオV編集のためのDiTTベースのフレームワークであるEditYourselfを紹介する。これにより、シームレスな追加、削除、視覚的に話されるコンテンツの調整など、音声ビデオの書き起こしに基づく修正が可能になる。これは、プロ向けビデオポストプロダクションの実用的なツールとして、生成ビデオモデルへの一歩である。
論文参考訳（メタデータ） (2026-01-29T18:49:27Z)
See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement [19.653004988642163]
本研究は,音声から情報を直接抽出する新しいアプローチを提案する。特に、これは1つの音声入力からのみ高解像度で高品質な音声ビデオを生成することができる最初の方法である。
論文参考訳（メタデータ） (2025-10-28T09:46:19Z)
Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文参考訳（メタデータ） (2024-12-10T18:51:31Z)
Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文参考訳（メタデータ） (2024-10-09T22:02:30Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-05T02:54:46Z)
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文参考訳（メタデータ） (2024-05-23T15:42:34Z)
Parametric Implicit Face Representation for Audio-Driven Facial Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文参考訳（メタデータ） (2023-06-13T07:08:22Z)
Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文参考訳（メタデータ） (2023-03-22T16:36:10Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文参考訳（メタデータ） (2022-12-09T16:32:46Z)
VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文参考訳（メタデータ） (2022-11-27T08:14:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。