論文の概要: NWT: Towards natural audio-to-video generation with representation
learning
- arxiv url: http://arxiv.org/abs/2106.04283v1
- Date: Tue, 8 Jun 2021 12:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:22:17.478089
- Title: NWT: Towards natural audio-to-video generation with representation
learning
- Title(参考訳): NWT:表現学習による自然なオーディオ・ビデオ生成を目指して
- Authors: Rayhane Mama, Marc S. Tyndel, Hashiam Kadhim, Cole Clifford, Ragavan
Thurairatnam
- Abstract要約: 我々は,表現力のある音声対ビデオモデルであるNWTを紹介する。
我々は、オーディオとビデオコンテンツについて最小限の仮定で、独自の潜在表現を学習する。
我々はジョン・オリバーと共にHBOの『Last Week Tonight』のクリップでNWTを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we introduce NWT, an expressive speech-to-video model. Unlike
approaches that use domain-specific intermediate representations such as pose
keypoints, NWT learns its own latent representations, with minimal assumptions
about the audio and video content. To this end, we propose a novel discrete
variational autoencoder with adversarial loss, dVAE-Adv, which learns a new
discrete latent representation we call Memcodes. Memcodes are straightforward
to implement, require no additional loss terms, are stable to train compared
with other approaches, and show evidence of interpretability. To predict on the
Memcode space, we use an autoregressive encoder-decoder model conditioned on
audio. Additionally, our model can control latent attributes in the generated
video that are not annotated in the data. We train NWT on clips from HBO's Last
Week Tonight with John Oliver. NWT consistently scores above other approaches
in Mean Opinion Score (MOS) on tests of overall video naturalness, facial
naturalness and expressiveness, and lipsync quality. This work sets a strong
baseline for generalized audio-to-video synthesis. Samples are available at
https://next-week-tonight.github.io/NWT/.
- Abstract(参考訳): 本研究では,表現型音声-ビデオモデルであるNWTを紹介する。
ポーズキーポイントのようなドメイン固有の中間表現を使用するアプローチとは異なり、NWTは音声やビデオの内容について最小限の仮定で独自の潜在表現を学習する。
そこで本稿では, 対数損失を持つ新しい離散変分オートエンコーダ, dVAE-Advを提案する。
memcodeは実装が簡単で、追加の損失項を必要とせず、他のアプローチと比較してトレーニングが安定であり、解釈可能性の証拠を示す。
音声上での自己回帰エンコーダデコーダモデルを用いて,Memcode空間の予測を行う。
さらに、このモデルでは、データに注釈が付けられていない生成されたビデオの潜在属性を制御できる。
我々はジョン・オリバーと共にHBOの『Last Week Tonight』のクリップでNWTを訓練する。
NWTは、ビデオ全体の自然性、顔の自然性、表現性、リップシンク品質の試験において、平均オピニオンスコア(MOS)の他のアプローチよりも一貫して得点している。
この研究は、一般化されたオーディオ・ビデオ合成の強力な基盤となる。
サンプルはhttps://next-week-tonight.github.io/NWT/で入手できる。
関連論文リスト
- SmoothVideo: Smooth Video Synthesis with Noise Constraints on Diffusion
Models for One-shot Video Tuning [18.979299814757997]
ワンショットビデオチューニング手法は、不整合と不整合によってマージされたビデオを生成する。
本稿では,ビデオフレーム間の簡易かつ効果的なノイズ制約を提案する。
既存のワンショットビデオチューニング手法にロスを適用することで、生成されたビデオの全体的な一貫性と滑らかさを大幅に改善する。
論文 参考訳(メタデータ) (2023-11-29T11:14:43Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Self-Supervised Video Forensics by Audio-Visual Anomaly Detection [19.842795378751923]
操作されたビデオには、視覚信号と音声信号の間に微妙な矛盾があることが多い。
本稿では,これらの不整合を識別できる異常検出に基づくビデオ法医学手法を提案する。
ビデオフレームと音声の時間同期をキャプチャする特徴セットを用いて、自動回帰モデルを訓練し、音声・視覚的特徴のシーケンスを生成する。
論文 参考訳(メタデータ) (2023-01-04T18:59:49Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。