論文の概要: DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with
Diffusion Auto-encoder
- arxiv url: http://arxiv.org/abs/2311.01811v1
- Date: Fri, 3 Nov 2023 09:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 14:34:44.828488
- Title: DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with
Diffusion Auto-encoder
- Title(参考訳): diffdub: 拡散オートエンコーダを用いたインペインティングレンダラを用いたパーソナライズドボッキング
- Authors: Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen, Kai Yu
- Abstract要約: DiffDub: Diffusion-based dubbingを提案する。
まず、編集可能なゾーンと未修正領域をデライン化するためのマスクを組み込んだ塗装により、Diffusion Auto-Encoderを製作する。
これらの課題に対処するため、我々はデータ強化や補充的アイガイダンスを含む多目的戦略を採用した。
- 参考スコア(独自算出の注目度): 21.405442790474268
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating high-quality and person-generic visual dubbing remains a
challenge. Recent innovation has seen the advent of a two-stage paradigm,
decoupling the rendering and lip synchronization process facilitated by
intermediate representation as a conduit. Still, previous methodologies rely on
rough landmarks or are confined to a single speaker, thus limiting their
performance. In this paper, we propose DiffDub: Diffusion-based dubbing. We
first craft the Diffusion auto-encoder by an inpainting renderer incorporating
a mask to delineate editable zones and unaltered regions. This allows for
seamless filling of the lower-face region while preserving the remaining parts.
Throughout our experiments, we encountered several challenges. Primarily, the
semantic encoder lacks robustness, constricting its ability to capture
high-level features. Besides, the modeling ignored facial positioning, causing
mouth or nose jitters across frames. To tackle these issues, we employ
versatile strategies, including data augmentation and supplementary eye
guidance. Moreover, we encapsulated a conformer-based reference encoder and
motion generator fortified by a cross-attention mechanism. This enables our
model to learn person-specific textures with varying references and reduces
reliance on paired audio-visual data. Our rigorous experiments comprehensively
highlight that our ground-breaking approach outpaces existing methods with
considerable margins and delivers seamless, intelligible videos in
person-generic and multilingual scenarios.
- Abstract(参考訳): 高品質でパーソナライズされたビジュアルドビングの生成は依然として課題である。
近年のイノベーションでは、2段階のパラダイムが出現し、中間表現を導管として促進するレンダリングとリップ同期プロセスが分離された。
それでも、従来の方法論は荒いランドマークに依存しているか、単一の話者に限定されているため、パフォーマンスが制限されている。
本稿ではDiffDub: Diffusion-based dubbingを提案する。
まず,マスクを組み込んだ塗装レンダラを用いて拡散オートエンコーダを作成し,編集可能領域と未変更領域を画定する。
これにより、残りの部分を保持しながら下面領域をシームレスに充填することができる。
実験を通して、いくつかの課題に遭遇した。
主にセマンティックエンコーダは堅牢性に欠けており、高レベルの機能をキャプチャする能力を制限している。
さらに、モデリングは顔の位置を無視し、口や鼻がフレームに散らばった。
これらの問題に対処するために,我々はデータ拡張や補足眼指導など多彩な戦略を採用している。
さらに,クロスアテンション機構によって強化されたコンフォーメータベースの参照エンコーダとモーションジェネレータをカプセル化した。
これにより、異なる参照で個人固有のテクスチャを学習し、ペア化された音声視覚データへの依存を減らすことができる。
我々の厳密な実験は、我々の画期的なアプローチが既存の手法をかなり上回り、シームレスで分かりやすい動画を個人や多言語のシナリオで提供することを包括的に強調しています。
関連論文リスト
- Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文 参考訳(メタデータ) (2023-08-07T03:16:24Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval [43.2299969152561]
ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-26T16:06:31Z) - Temporally coherent video anonymization through GAN inpainting [0.0]
本研究は,自然映像ストリームにおける顔の時間的コヒーレントな匿名化の問題に取り組む。
ビデオの個々のフレームに黒い画像パッチを貼って顔を検出しマスクする2段階のシステムであるJaGANを提案する。
最初の実験では、画像ベースの生成モデルでは、隣接するビデオフレーム間の時間的コヒーレントな出現を示すパッチを塗布できないことが明らかとなった。
論文 参考訳(メタデータ) (2021-06-04T08:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。