論文の概要: SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.00878v1
- Date: Wed, 1 May 2024 21:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 18:23:47.348287
- Title: SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models
- Title(参考訳): SonicDiffusion:事前学習した拡散モデルによるオーディオ駆動画像生成と編集
- Authors: Burak Can Biner, Farrin Marouf Sofian, Umur Berkay Karakaş, Duygu Ceylan, Erkut Erdem, Aykut Erdem,
- Abstract要約: 本稿では,大規模画像拡散モデルにおける音声条件設定を実現する手法を提案する。
音声条件付き画像生成に加えて,拡散に基づく編集手法との共役にも利用することができる。
- 参考スコア(独自算出の注目度): 21.669044026456557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are witnessing a revolution in conditional image synthesis with the recent success of large scale text-to-image generation methods. This success also opens up new opportunities in controlling the generation and editing process using multi-modal input. While spatial control using cues such as depth, sketch, and other images has attracted a lot of research, we argue that another equally effective modality is audio since sound and sight are two main components of human perception. Hence, we propose a method to enable audio-conditioning in large scale image diffusion models. Our method first maps features obtained from audio clips to tokens that can be injected into the diffusion model in a fashion similar to text tokens. We introduce additional audio-image cross attention layers which we finetune while freezing the weights of the original layers of the diffusion model. In addition to audio conditioned image generation, our method can also be utilized in conjuction with diffusion based editing methods to enable audio conditioned image editing. We demonstrate our method on a wide range of audio and image datasets. We perform extensive comparisons with recent methods and show favorable performance.
- Abstract(参考訳): 我々は最近の大規模テキスト・画像生成手法の成功により,条件付き画像合成の革命を目の当たりにしている。
この成功はまた、マルチモーダル入力を使用して生成および編集プロセスを制御する新しい機会を開く。
深度、スケッチ、その他の画像を用いた空間制御は、多くの研究を惹きつけてきたが、音と視覚が人間の知覚の2つの主要な構成要素であるため、同様に効果的なモダリティはオーディオであると主張する。
そこで本稿では,大規模画像拡散モデルにおいて,オーディオコンディショニングを可能にする手法を提案する。
提案手法は,まず音声クリップから得られた特徴を,テキストトークンに似た方法で拡散モデルに注入可能なトークンにマッピングする。
拡散モデルの元のレイヤの重みを凍結しながら微調整する。
音声条件付き画像生成に加えて、拡散に基づく編集手法と共役して、音声条件付き画像編集を可能にする。
本手法は,幅広い音声・画像データセットに対して実証する。
我々は最近の手法と広範囲に比較を行い、良好な性能を示す。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation [89.63430567887718]
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。
提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
論文 参考訳(メタデータ) (2023-05-22T14:02:44Z) - Speech Driven Video Editing via an Audio-Conditioned Diffusion Model [1.6763474728913939]
本稿では,デノナイズ拡散モデルを用いたエンドツーエンド音声駆動ビデオ編集手法を提案する。
音声メルスペクトル特徴量にデノナイジング拡散モデルを適用して、顔の動きを同期させることにより、これを実現できることを示す。
我々の知る限りでは、音声駆動ビデオ編集のタスクにエンド・ツー・エンド・エンド・デノナイズ・ディノナイズ・ディフュージョン・モデルの適用可能性を実証し、検証する最初の試みである。
論文 参考訳(メタデータ) (2023-01-10T12:01:20Z) - TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。
我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。
また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T10:01:43Z) - Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。
提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-30T13:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。