論文の概要: AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation
- arxiv url: http://arxiv.org/abs/2305.13050v1
- Date: Mon, 22 May 2023 14:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:34:03.148080
- Title: AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation
- Title(参考訳): AudioToken: 音声画像生成のためのテキスト記述拡散モデルの適応
- Authors: Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz
- Abstract要約: そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。
提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
- 参考スコア(独自算出の注目度): 89.63430567887718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, image generation has shown a great leap in performance,
where diffusion models play a central role. Although generating high-quality
images, such models are mainly conditioned on textual descriptions. This begs
the question: "how can we adopt such models to be conditioned on other
modalities?". In this paper, we propose a novel method utilizing latent
diffusion models trained for text-to-image-generation to generate images
conditioned on audio recordings. Using a pre-trained audio encoding model, the
proposed method encodes audio into a new token, which can be considered as an
adaptation layer between the audio and text representations. Such a modeling
paradigm requires a small number of trainable parameters, making the proposed
approach appealing for lightweight optimization. Results suggest the proposed
method is superior to the evaluated baseline methods, considering objective and
subjective metrics. Code and samples are available at:
https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
- Abstract(参考訳): 近年、画像生成は、拡散モデルが中心的な役割を果たす性能において大きな飛躍を見せている。
高品質な画像を生成するが、そのようなモデルは主にテキスト記述に条件付けされている。
このことは「そのようなモデルを他のモダリティで条件付けするにはどうすればいいのか?
本稿では,音声記録に基づく画像を生成するために,テキスト対画像生成を訓練した潜在拡散モデルを用いた新しい手法を提案する。
提案手法は,事前学習した音声符号化モデルを用いて,音声とテキスト表現の適応層として考えられる新しいトークンに音声を符号化する。
このようなモデリングパラダイムは、少数のトレーニング可能なパラメータを必要とするため、提案手法は軽量な最適化に向いている。
提案手法は客観的および主観的指標を考慮した評価基準法よりも優れていることが示唆された。
コードとサンプルは、https://pages.cs.huji.ac.il/adiyoss-lab/audiotokenで入手できる。
関連論文リスト
- BrewCLIP: A Bifurcated Representation Learning Framework for Audio-Visual Retrieval [3.347768376390811]
パイプラインベースモデルで見落としている非テキスト情報を利用して、音声画像のマッチング性能を向上させることができるかを検討する。
提案手法は, 事前学習の強いモデル, プロンプト機構, 分岐設計を活用することで, 従来の最先端技術よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-08-19T19:56:10Z) - SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models [21.669044026456557]
本稿では,大規模画像拡散モデルにおける音声条件設定を実現する手法を提案する。
音声条件付き画像生成に加えて,拡散に基づく編集手法との共役にも利用することができる。
論文 参考訳(メタデータ) (2024-05-01T21:43:57Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。
我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。
また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T10:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。