論文の概要: HDTR-Net: A Real-Time High-Definition Teeth Restoration Network for
Arbitrary Talking Face Generation Methods
- arxiv url: http://arxiv.org/abs/2309.07495v1
- Date: Thu, 14 Sep 2023 07:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:46:38.050523
- Title: HDTR-Net: A Real-Time High-Definition Teeth Restoration Network for
Arbitrary Talking Face Generation Methods
- Title(参考訳): HDTR-Net:任意面生成のためのリアルタイム高精細歯列修復ネットワーク
- Authors: Yongyuan Li, Xiuyuan Qin, Chao Liang, Mingqiang Wei
- Abstract要約: Talking Face Generation (TFG)は、潜在的なつながりにある音声や顔の特徴から高い自然な唇の動きを達成するために、顔の動きを再構築することを目的としている。
クロスモーダル生成手法の視覚的品質劣化を回避しつつ、唇の同期を確保することは困難である。
本稿では,任意のTFG法に対してHDTR-Netと呼ばれる汎用高精細歯列修復ネットワークを提案する。
- 参考スコア(独自算出の注目度): 27.464350075325346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking Face Generation (TFG) aims to reconstruct facial movements to achieve
high natural lip movements from audio and facial features that are under
potential connections. Existing TFG methods have made significant advancements
to produce natural and realistic images. However, most work rarely takes visual
quality into consideration. It is challenging to ensure lip synchronization
while avoiding visual quality degradation in cross-modal generation methods. To
address this issue, we propose a universal High-Definition Teeth Restoration
Network, dubbed HDTR-Net, for arbitrary TFG methods. HDTR-Net can enhance teeth
regions at an extremely fast speed while maintaining synchronization, and
temporal consistency. In particular, we propose a Fine-Grained Feature Fusion
(FGFF) module to effectively capture fine texture feature information around
teeth and surrounding regions, and use these features to fine-grain the feature
map to enhance the clarity of teeth. Extensive experiments show that our method
can be adapted to arbitrary TFG methods without suffering from lip
synchronization and frame coherence. Another advantage of HDTR-Net is its
real-time generation ability. Also under the condition of high-definition
restoration of talking face video synthesis, its inference speed is $300\%$
faster than the current state-of-the-art face restoration based on
super-resolution.
- Abstract(参考訳): Talking Face Generation (TFG)は、潜在的なつながりにある音声や顔の特徴から高い自然な唇の動きを達成するために、顔の動きを再構築することを目的としている。
既存のtfg手法は、自然で現実的な画像を生成するために大きな進歩を遂げている。
しかし、ほとんどの作品は視覚的品質を考慮に入れない。
クロスモーダル生成手法の視覚的品質劣化を回避しつつ、唇の同期を確保することは困難である。
この問題に対処するために,任意のTFG法に対してHDTR-Netと呼ばれる汎用高精細歯列修復ネットワークを提案する。
HDTR-Netは、同期と時間的一貫性を維持しながら、極めて高速に歯の領域を拡張できる。
特に,歯および周囲領域の微細なテクスチャ特徴情報を効果的に捉えるためのFGFFモジュールを提案し,これらの特徴を利用して特徴マップを微細化し,歯の明瞭度を高める。
広範な実験により,本手法は唇同期やフレームコヒーレンスに苦しむことなく任意のtfg法に適応できることが示された。
HDTR-Netのもう1つの利点は、そのリアルタイム生成能力である。
また、音声映像合成の高精細復元条件下では、その推定速度は、超解像に基づく現在の最先端顔復元よりも300〜%高速である。
関連論文リスト
- Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer [21.323165895036354]
そこで本稿では,新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
論文 参考訳(メタデータ) (2024-04-21T12:33:07Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Multi-Prior Learning via Neural Architecture Search for Blind Face
Restoration [61.27907052910136]
Blind Face Restoration (BFR)は、高品質な顔画像から高品質な顔画像を復元することを目的としている。
1)手動チューニングを伴わない強力なネットワークアーキテクチャの導出方法,2) 複数の顔前者からの補完情報を1つのネットワークで取得して復元性能を向上させる方法,の2つの大きな課題がある。
特定検索空間内において,適切な特徴抽出アーキテクチャを適応的に探索する顔復元検索ネットワーク(FRSNet)を提案する。
論文 参考訳(メタデータ) (2022-06-28T12:29:53Z) - Stitch it in Time: GAN-Based Facial Editing of Real Videos [38.81306268180105]
本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。
提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
論文 参考訳(メタデータ) (2022-01-20T18:48:20Z) - TANet: A new Paradigm for Global Face Super-resolution via
Transformer-CNN Aggregation Network [72.41798177302175]
本稿では, 顔構造特徴の表現能力を完全に探求する自己認識機構(すなわち Transformer のコア)に基づく新しいパラダイムを提案する。
具体的には、2つの経路からなるTransformer-CNNアグリゲーションネットワーク(TANet)を設計する。
上記の2つの経路から特徴を集約することにより、グローバルな顔の構造の整合性と局所的な顔のディテール復元の忠実度を同時に強化する。
論文 参考訳(メタデータ) (2021-09-16T18:15:07Z) - High-Speed and High-Quality Text-to-Lip Generation [55.20612501355773]
高速かつ高品質なテキスト-リップ生成(HH-T2L)のための新しい並列デコーディングモデルを提案する。
我々は,符号化言語特徴の持続時間を予測するとともに,符号化言語特徴に規定された対象の唇フレームを,非自己回帰的にその持続時間でモデル化する。
GRIDおよびTCD-TIMITデータセットを用いて行った実験により、HH-T2Lは、最先端のAR T2LモデルであるDualLipと比較して、競合品質の唇運動を生成することが示された。
論文 参考訳(メタデータ) (2021-07-14T16:44:04Z) - iSeeBetter: Spatio-temporal video super-resolution using recurrent
generative back-projection networks [0.0]
ビデオ超解像(VSR)に対する新しいGANに基づく構造時間的アプローチiSeeBetterを提案する。
iSeeBetterは、リカレントバックプロジェクションネットワークをジェネレータとして使用して、現在のフレームと隣接するフレームから時空間情報を抽出する。
以上の結果から,iSeeBetterはVSRの忠実度に優れ,最先端の性能に勝ることを示した。
論文 参考訳(メタデータ) (2020-06-13T01:36:30Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z) - A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News
Anchors [8.13692293541489]
リップシンクは、音声信号から口の動きを生成するための有望な技術として登場した。
本稿では,高忠実度仮想ニュースアンカーの製作に特化して設計された新しいリップシンクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-20T12:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。