論文の概要: Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation
- arxiv url: http://arxiv.org/abs/2309.16429v1
- Date: Thu, 28 Sep 2023 13:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 14:17:12.660568
- Title: Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation
- Title(参考訳): テキストからビデオへのモデル適応による多種多様な音声対ビデオ生成
- Authors: Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi
- Abstract要約: 本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
- 参考スコア(独自算出の注目度): 89.96013329530484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of generating diverse and realistic videos guided by
natural audio samples from a wide variety of semantic classes. For this task,
the videos are required to be aligned both globally and temporally with the
input audio: globally, the input audio is semantically associated with the
entire output video, and temporally, each segment of the input audio is
associated with a corresponding segment of that video. We utilize an existing
text-conditioned video generation model and a pre-trained audio encoder model.
The proposed method is based on a lightweight adaptor network, which learns to
map the audio-based representation to the input representation expected by the
text-to-video generation model. As such, it also enables video generation
conditioned on text, audio, and, for the first time as far as we can ascertain,
on both text and audio. We validate our method extensively on three datasets
demonstrating significant semantic diversity of audio-video samples and further
propose a novel evaluation metric (AV-Align) to assess the alignment of
generated videos with input audio samples. AV-Align is based on the detection
and comparison of energy peaks in both modalities. In comparison to recent
state-of-the-art approaches, our method generates videos that are better
aligned with the input sound, both with respect to content and temporal axis.
We also show that videos produced by our method present higher visual quality
and are more diverse.
- Abstract(参考訳): 多様な意味クラスから自然音声サンプルを導いた多様でリアルな映像を生成する作業について考察する。
この作業のためには、ビデオは、グローバルかつ時間的に、入力された音声に合わせる必要がある:グローバルに、入力されたオーディオは、出力されたビデオ全体とセマンティックに関連付けられ、時間的に、入力されたオーディオの各セグメントは、そのビデオの対応するセグメントに関連付けられている。
既存のテキスト条件付きビデオ生成モデルと事前学習したオーディオエンコーダモデルを用いる。
提案手法は,テキストからビデオへの生成モデルで期待される入力表現にオーディオベースの表現をマッピングすることを学ぶ軽量適応ネットワークに基づいている。
そのため、テキスト、オーディオ、そして初めて確認できる限り初めて、テキストとオーディオの両方でビデオを生成することができる。
提案手法は,音声-ビデオサンプルの有意な意味的多様性を示す3つのデータセット上で広く検証され,さらに,生成された映像と入力音声サンプルのアラインメントを評価するための新しい評価指標(av-align)を提案する。
AV-Alignは両方のモードにおけるエネルギーピークの検出と比較に基づいている。
最近の最先端のアプローチと比較して,本手法は,コンテンツと時間軸の両方において,入力音に合致した映像を生成する。
また,本手法で生成した映像は高い視覚品質を示し,より多様であることを示す。
関連論文リスト
- Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文 参考訳(メタデータ) (2024-11-08T16:29:07Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation [24.403772976932487]
Sounding Video Generator (SVG) は、オーディオ信号とともにリアルな映像を生成するための統合されたフレームワークである。
VQGANは、視覚フレームとオーディオメロメログラムを離散トークンに変換する。
トランスフォーマーベースのデコーダは、テキスト、ビジュアルフレーム、オーディオ信号間の関連をモデル化するために使用される。
論文 参考訳(メタデータ) (2023-03-29T09:07:31Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Audio-based Near-Duplicate Video Retrieval with Audio Similarity
Learning [19.730467023817123]
ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。
我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。
提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
論文 参考訳(メタデータ) (2020-10-17T08:12:18Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。