論文の概要: MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment
- arxiv url: http://arxiv.org/abs/2503.10287v1
- Date: Thu, 13 Mar 2025 11:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:57.033760
- Title: MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment
- Title(参考訳): MACS:文脈的意義と意味的アライメントを備えたマルチソースオーディオ画像生成
- Authors: Hao Zhou, Xiaobao Guo, Yuzhe Zhu, Adams Wai-Kin Kong,
- Abstract要約: マルチソース音声画像生成のためのMACS法を提案する。
これは、画像生成の前にリッチオーディオコンポーネントをキャプチャするために、マルチソースオーディオを明示的に分離する最初の作品である。
提案したMACSは,全タスクにおける21評価指標のうち17項目において,現在の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 20.54227825704359
- License:
- Abstract: Propelled by the breakthrough in deep generative models, audio-to-image generation has emerged as a pivotal cross-model task that converts complex auditory signals into rich visual representations. However, previous works only focus on single-source audio inputs for image generation, ignoring the multi-source characteristic in natural auditory scenes, thus limiting the performance in generating comprehensive visual content. To bridge this gap, a method called MACS is proposed to conduct multi-source audio-to-image generation. This is the first work that explicitly separates multi-source audio to capture the rich audio components before image generation. MACS is a two-stage method. In the first stage, multi-source audio inputs are separated by a weakly supervised method, where the audio and text labels are semantically aligned by casting into a common space using the large pre-trained CLAP model. We introduce a ranking loss to consider the contextual significance of the separated audio signals. In the second stage, efficient image generation is achieved by mapping the separated audio signals to the generation condition using only a trainable adapter and a MLP layer. We preprocess the LLP dataset as the first full multi-source audio-to-image generation benchmark. The experiments are conducted on multi-source, mixed-source, and single-source audio-to-image generation tasks. The proposed MACS outperforms the current state-of-the-art methods in 17 of the 21 evaluation indexes on all tasks and delivers superior visual quality. The code will be publicly available.
- Abstract(参考訳): 深層生成モデルのブレークスルーによって、複雑な聴覚信号をリッチな視覚表現に変換する重要なクロスモデルタスクとして、オーディオ・画像生成が登場した。
しかし、従来の研究は、自然の聴覚シーンにおけるマルチソース特性を無視して、画像生成のための単一ソース音声入力のみに焦点を合わせており、包括的な視覚コンテンツを生成する際の性能を制限している。
このギャップを埋めるために、マルチソース音声画像生成を行うMACSと呼ばれる手法を提案する。
これは、画像生成の前にリッチオーディオコンポーネントをキャプチャするために、マルチソースオーディオを明示的に分離する最初の作品である。
MACSは二段階法である。
第1段階では、マルチソース音声入力を弱教師付き方式で分離し、大きな事前学習されたCLAPモデルを用いて、音声とテキストラベルを共通空間にキャストすることで意味的に整列させる。
分離された音声信号の文脈的意義を考慮したランキング損失を導入する。
第2段階では、訓練可能なアダプタとMPP層のみを用いて分離された音声信号を生成条件にマッピングすることにより、効率的な画像生成を実現する。
我々はLPPデータセットを,最初のマルチソース音声画像生成ベンチマークとして前処理する。
実験は、マルチソース、ミックスソース、シングルソースオーディオ・ツー・イメージ生成タスクで実施される。
提案したMACSは,全タスクの21評価指標のうち17項目において,現在の最先端手法よりも優れ,視覚的品質が向上している。
コードは公開されます。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - New Audio Representations Image Gan Generation from BriVL [0.0]
本稿では,Briging-Vision-and-Language(BriVL)に基づくロバストな音声表現学習手法を提案する。
WavBriVLは、音声、画像、テキストを共有埋め込み空間に投影し、マルチモーダルアプリケーションを実現する。
論文 参考訳(メタデータ) (2023-03-08T13:58:55Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource
Parallel Data [15.658471125219224]
音声とテキストのマルチモーダル事前学習は有効であることが証明され、ダウンストリーム音声理解タスクの性能が大幅に向上した。
しかし、これらの最先端の訓練済みオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ、うまく機能する。
本稿では,低リソース並列データを用いた音声テキストモデルの事前学習が可能かどうかを検討する。
論文 参考訳(メタデータ) (2022-04-10T10:25:37Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。