論文の概要: CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models
- arxiv url: http://arxiv.org/abs/2306.09635v2
- Date: Sun, 23 Jul 2023 07:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 20:57:20.127308
- Title: CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models
- Title(参考訳): CLIPSonic: 未ラベルビデオと事前学習言語ビジョンモデルによる音声合成
- Authors: Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago
Pascual, Joan Serr\`a, Taylor Berg-Kirkpatrick, Julian McAuley
- Abstract要約: 本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
- 参考スコア(独自算出の注目度): 50.42886595228255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has studied text-to-audio synthesis using large amounts of paired
text-audio data. However, audio recordings with high-quality text annotations
can be difficult to acquire. In this work, we approach text-to-audio synthesis
using unlabeled videos and pretrained language-vision models. We propose to
learn the desired text-audio correspondence by leveraging the visual modality
as a bridge. We train a conditional diffusion model to generate the audio track
of a video, given a video frame encoded by a pretrained contrastive
language-image pretraining (CLIP) model. At test time, we first explore
performing a zero-shot modality transfer and condition the diffusion model with
a CLIP-encoded text query. However, we observe a noticeable performance drop
with respect to image queries. To close this gap, we further adopt a pretrained
diffusion prior model to generate a CLIP image embedding given a CLIP text
embedding. Our results show the effectiveness of the proposed method, and that
the pretrained diffusion prior can reduce the modality transfer gap. While we
focus on text-to-audio synthesis, the proposed model can also generate audio
from image queries, and it shows competitive performance against a
state-of-the-art image-to-audio synthesis model in a subjective listening test.
This study offers a new direction of approaching text-to-audio synthesis that
leverages the naturally-occurring audio-visual correspondence in videos and the
power of pretrained language-vision models.
- Abstract(参考訳): 近年,大量のテキスト音声データを用いた音声合成の研究が行われている。
しかし,高品質なテキストアノテーションを用いた音声記録は入手が困難である。
本研究では,未ラベルビデオと事前学習言語ビジョンモデルを用いて音声合成を行う。
視覚モダリティを橋梁として活用し,所望のテキスト音声対応を学習することを提案する。
我々は,事前学習されたコントラスト言語画像前訓練(clip)モデルで符号化されたビデオフレームに対して,映像の音声トラックを生成するための条件拡散モデルを訓練する。
テスト時には,まずゼロショットモダリティ転送を行い,クリップエンコードされたテキストクエリで拡散モデルを条件付けする。
しかし,画像クエリに対する顕著な性能低下が観察された。
このギャップを埋めるために,事前学習した拡散事前モデルを採用し,クリップテキスト埋め込みによりクリップ画像埋め込みを生成する。
その結果,提案手法の有効性が示され,事前学習した拡散前処理によりモーダリティ伝達ギャップを低減できることがわかった。
音声合成に注目する一方で,提案モデルでは画像クエリから音声を生成することが可能であり,主観的聞き取りテストにおいて最先端の画像音声合成モデルと競合する性能を示す。
本研究は,ビデオにおける自然な音声-視覚対応と事前学習された言語-視覚モデルのパワーを活用する,テキスト-音声合成への新たな方向を提供する。
関連論文リスト
- Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。