論文の概要: Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural
Rendering Priors
- arxiv url: http://arxiv.org/abs/2401.06126v1
- Date: Thu, 11 Jan 2024 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:11:59.709902
- Title: Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural
Rendering Priors
- Title(参考訳): 全員のダビング:ニューラルレンダリングプリミティブを用いたデータ効率の良いビジュアルダビング
- Authors: Jack Saunders and Vinay Namboodiri
- Abstract要約: ビジュアルダビング(Visual dubbing)は、ビデオ内のアクターの唇の動きを生成し、特定のオーディオと同期する過程である。
既存の方法は、個人固有のモデルまたは個人固有のモデルに分けられる。
提案手法は,データ効率のよいニューラルレンダリングに先立って,既存のアプローチの限界を克服する。
- 参考スコア(独自算出の注目度): 4.532517021515833
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual dubbing is the process of generating lip motions of an actor in a
video to synchronise with given audio. Recent advances have made progress
towards this goal but have not been able to produce an approach suitable for
mass adoption. Existing methods are split into either person-generic or
person-specific models. Person-specific models produce results almost
indistinguishable from reality but rely on long training times using large
single-person datasets. Person-generic works have allowed for the visual
dubbing of any video to any audio without further training, but these fail to
capture the person-specific nuances and often suffer from visual artefacts. Our
method, based on data-efficient neural rendering priors, overcomes the
limitations of existing approaches. Our pipeline consists of learning a
deferred neural rendering prior network and actor-specific adaptation using
neural textures. This method allows for $\textbf{high-quality visual dubbing
with just a few seconds of data}$, that enables video dubbing for any actor -
from A-list celebrities to background actors. We show that we achieve
state-of-the-art in terms of $\textbf{visual quality}$ and
$\textbf{recognisability}$ both quantitatively, and qualitatively through two
user studies. Our prior learning and adaptation method $\textbf{generalises to
limited data}$ better and is more $\textbf{scalable}$ than existing
person-specific models. Our experiments on real-world, limited data scenarios
find that our model is preferred over all others. The project page may be found
at https://dubbingforeveryone.github.io/
- Abstract(参考訳): ビジュアルダビング(Visual dubbing)は、ビデオ内のアクターの唇の動きを生成し、特定のオーディオと同期する過程である。
近年の進歩はこの目標に向かって進んでいるが、大量導入に適したアプローチは得られていない。
既存の方法は、個人固有のモデルまたは個人固有のモデルに分けられる。
個人固有のモデルは、現実とほとんど区別できない結果を生み出すが、大きな個人データセットを使用して長いトレーニング時間に依存する。
パーソナライズ・ジェネリック・ワークは、さらなる訓練なしにどんなビデオでも視覚的にダビングすることができるが、これらは個人固有のニュアンスを捉えられず、しばしば視覚的なアーティファクトに苦しむ。
提案手法は,データ効率のよいニューラルレンダリングに先立って,既存のアプローチの限界を克服する。
我々のパイプラインは、遅延ニューラルレンダリング前のネットワークと、ニューラルテクスチャを用いたアクター固有の適応を学習する。
この方法は$\textbf{high-quality visual dubbing with just few seconds of data}$で、Aリストの有名人からバックグラウンドの俳優まで、あらゆる俳優のためのビデオダビングを可能にする。
定量的かつ定性的に2つのユーザスタディを通して,$\textbf{visual quality}$ と $\textbf{recognisability}$ の両面で最先端の成果が得られることを示す。
我々の事前学習および適応メソッド $\textbf{ Generalises to limited data}$より良く、既存の個人固有のモデルよりも$\textbf{scalable}$である。
実世界の限られたデータシナリオに関する我々の実験では、私たちのモデルは他のすべてよりも好まれることがわかった。
プロジェクトページはhttps://dubbingforeveryone.github.io/にある。
関連論文リスト
- SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using
Diffusion [0.0]
音声駆動型顔アニメーションを生成するための非決定論的ディープラーニングモデルFaceDiffuserを提案する。
提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。
また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
論文 参考訳(メタデータ) (2023-09-20T13:33:00Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。