論文の概要: Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors
- arxiv url: http://arxiv.org/abs/2208.08118v1
- Date: Wed, 17 Aug 2022 07:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:56:08.551753
- Title: Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors
- Title(参考訳): 音声-視覚優先による超大規模対話型ビデオのアップサンプリング
- Authors: Sindhu B Hegde, Rudrabha Mukhopadhyay, Vinay P Namboodiri, C. V.
Jawahar
- Abstract要約: 適切なオーディオと画像のセットで8ドル8セントのビデオを処理すれば、フル長の256ドル256ドルのビデオが手に入る。
この新しいオーディオ・ビジュアル・アップサンプリングネットワークを使って、超低解像度の入力を32倍のスケールで実現しました。
- 参考スコア(独自算出の注目度): 46.49463091678284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore an interesting question of what can be obtained
from an $8\times8$ pixel video sequence. Surprisingly, it turns out to be quite
a lot. We show that when we process this $8\times8$ video with the right set of
audio and image priors, we can obtain a full-length, $256\times256$ video. We
achieve this $32\times$ scaling of an extremely low-resolution input using our
novel audio-visual upsampling network. The audio prior helps to recover the
elemental facial details and precise lip shapes and a single high-resolution
target identity image prior provides us with rich appearance details. Our
approach is an end-to-end multi-stage framework. The first stage produces a
coarse intermediate output video that can be then used to animate single target
identity image and generate realistic, accurate and high-quality outputs. Our
approach is simple and performs exceedingly well (an $8\times$ improvement in
FID score) compared to previous super-resolution methods. We also extend our
model to talking-face video compression, and show that we obtain a $3.5\times$
improvement in terms of bits/pixel over the previous state-of-the-art. The
results from our network are thoroughly analyzed through extensive ablation
experiments (in the paper and supplementary material). We also provide the demo
video along with code and models on our website:
\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/talking-face-video-upsampling}.
- Abstract(参考訳): そこで本稿では,8,800円の映像から何が得られるのかという興味深い疑問を提起する。
驚いたことに、かなり多くのことが判明した。
この$8\times8$のビデオをオーディオと画像のプリエントで処理すると、全長$256\times256$のビデオが得られる。
超低解像度入力の32\times$スケーリングを、新しいオーディオ・ビジュアル・アップサンプリングネットワークを使って実現します。
オーディオ先行は、要素的な顔の詳細と正確な唇形状を復元するのに役立ち、単一の高解像度のターゲット識別画像は、よりリッチな外観の詳細を提供する。
私たちのアプローチはエンドツーエンドのマルチステージフレームワークです。
第1段階は粗い中間出力ビデオを生成し、それによって単一のターゲットIDイメージをアニメーション化し、現実的で正確で高品質な出力を生成する。
従来の超解像法と比較して,本手法は単純で,非常に良好(FIDスコアが8ドル以上向上)である。
また,提案手法を音声ビデオ圧縮に拡張し,従来の最先端技術よりも3.5\times$のビット/ピクセルの改善が得られることを示す。
本ネットワークから得られた結果は, 広範なアブレーション実験(紙および補足材料)により徹底的に解析された。
また、ウェブサイト上でコードやモデルと共にデモビデオを提供しています。
関連論文リスト
- Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Audio-Visual Face Reenactment [34.79242760137663]
本研究は,音声とビジュアルストリームを用いて,リアルな音声ヘッドビデオを生成する新しい手法を提案する。
学習可能なキーポイントを用いて発生する濃密な運動場を用いて、運転映像から頭部の動きを伝達することにより、音源画像のアニメーション化を行う。
我々は、音声を付加入力としてリップシンクの質を改善し、そのネットワークが口領域に到達するのを手助けする。
論文 参考訳(メタデータ) (2022-10-06T08:48:10Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。