論文の概要: Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation
- arxiv url: http://arxiv.org/abs/2501.05413v1
- Date: Thu, 09 Jan 2025 18:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:58:06.929252
- Title: Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation
- Title(参考訳): 音を見る:視覚から音を組み立てて音声から画像を生成する
- Authors: Darius Petermann, Mahdi M. Kalayeh,
- Abstract要約: オーディオから画像への生成モデルの訓練には、意味的に整合した多様なオーディオと視覚のペアが多数必要である。
本稿では,様々な高品質で不整合なユニモーダル原点のインスタンスを人工的にペアリングできる,スケーラブルな画像ソリフィケーションフレームワークを提案する。
提案手法の有効性を示すため,本手法では,音素化画像を用いて,最先端技術に対して競争力のある音声画像生成モデルを訓練する。
- 参考スコア(独自算出の注目度): 6.169364905804677
- License:
- Abstract: Training audio-to-image generative models requires an abundance of diverse audio-visual pairs that are semantically aligned. Such data is almost always curated from in-the-wild videos, given the cross-modal semantic correspondence that is inherent to them. In this work, we hypothesize that insisting on the absolute need for ground truth audio-visual correspondence, is not only unnecessary, but also leads to severe restrictions in scale, quality, and diversity of the data, ultimately impairing its use in the modern generative models. That is, we propose a scalable image sonification framework where instances from a variety of high-quality yet disjoint uni-modal origins can be artificially paired through a retrieval process that is empowered by reasoning capabilities of modern vision-language models. To demonstrate the efficacy of this approach, we use our sonified images to train an audio-to-image generative model that performs competitively against state-of-the-art. Finally, through a series of ablation studies, we exhibit several intriguing auditory capabilities like semantic mixing and interpolation, loudness calibration and acoustic space modeling through reverberation that our model has implicitly developed to guide the image generation process.
- Abstract(参考訳): オーディオから画像への生成モデルの訓練には、意味的に整合した多様なオーディオと視覚のペアが多数必要である。
このようなデータは、基本的には、それ固有のクロスモーダルなセマンティックな対応を考えると、Wildのビデオからキュレートされる。
本研究は,音声-視覚的対応の絶対的要求を主張することは不要であるだけでなく,データのスケール,品質,多様性の厳しい制約を招き,近代的な生成モデルにおけるその使用を損なうという仮説である。
すなわち,現代視覚言語モデルの推論能力によって強化された検索プロセスを通じて,高品質で不整合なユニモーダル起源のインスタンスを人工的に組み合わせることのできる,スケーラブルな画像ソリフィケーションフレームワークを提案する。
提案手法の有効性を示すため,本手法では,音素化画像を用いて,最先端技術に対して競争力のある音声画像生成モデルを訓練する。
最後に、一連のアブレーション研究を通じて、我々のモデルが暗黙的に画像生成過程を導くために開発した残響を通して、セマンティックミキシングや補間、ラウドネスキャリブレーション、音響空間モデリングなどの興味深い聴覚機能を示す。
関連論文リスト
- Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation [89.63430567887718]
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。
提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
論文 参考訳(メタデータ) (2023-05-22T14:02:44Z) - Hypernetworks build Implicit Neural Representations of Sounds [18.28957270390735]
Inlicit Neural Representation (INR)は、画像の超解像、画像圧縮、あるいは3Dレンダリングなど、様々なリアルタイムアプリケーションにおけるマルチメディア信号の表現に使われている。
INRを利用する既存の方法は、画像ベースのINRモデルのアーキテクチャ特性に現れる帰納的バイアスのため、主に視覚データに焦点を絞っている。
我々は、ハイパーネットワークを活用して、トレーニング中に観察されたサンプルを超えて一般化する、オーディオサンプルのためのINRを生成する最初のメタ学習アプローチであるHyperSoundを紹介した。
我々のアプローチは、他の状態に匹敵する品質でオーディオサンプルを再構成する
論文 参考訳(メタデータ) (2023-02-09T22:24:26Z) - Audio-to-Image Cross-Modal Generation [0.0]
クロスモーダル表現学習は、異なるモーダルからの情報を1つの表現に統合することができる。
オーディオデータから画像アーキタイプを再構成するために、可変オートエンコーダ(VAE)を訓練する。
その結果, 生成した画像が相対的に不整合(多様性)である場合でも, 適切な画像分類に欠かせない特徴が保存されていることが示唆された。
論文 参考訳(メタデータ) (2021-09-27T21:25:31Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。