論文の概要: SeeingSounds: Learning Audio-to-Visual Alignment via Text
- arxiv url: http://arxiv.org/abs/2510.11738v1
- Date: Fri, 10 Oct 2025 18:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.020366
- Title: SeeingSounds: Learning Audio-to-Visual Alignment via Text
- Title(参考訳): SeeingSounds: テキストによる音声と視覚のアライメントの学習
- Authors: Simone Carnemolla, Matteo Pennisi, Chiara Russo, Simone Palazzo, Daniela Giordano, Concetto Spampinato,
- Abstract要約: 本稿では,音声,言語,視覚の相互作用を利用した画像生成のためのフレームワークであるSeeingSoundsを紹介する。
音声は凍結言語エンコーダを介して意味言語空間に投影され、視覚言語モデルを用いて文脈的に視覚領域に基底される。
このアプローチは認知神経科学にインスパイアされ、人間の知覚で観察される自然な相互関連を反映している。
- 参考スコア(独自算出の注目度): 15.011814561603964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SeeingSounds, a lightweight and modular framework for audio-to-image generation that leverages the interplay between audio, language, and vision-without requiring any paired audio-visual data or training on visual generative models. Rather than treating audio as a substitute for text or relying solely on audio-to-text mappings, our method performs dual alignment: audio is projected into a semantic language space via a frozen language encoder, and, contextually grounded into the visual domain using a vision-language model. This approach, inspired by cognitive neuroscience, reflects the natural cross-modal associations observed in human perception. The model operates on frozen diffusion backbones and trains only lightweight adapters, enabling efficient and scalable learning. Moreover, it supports fine-grained and interpretable control through procedural text prompt generation, where audio transformations (e.g., volume or pitch shifts) translate into descriptive prompts (e.g., "a distant thunder") that guide visual outputs. Extensive experiments across standard benchmarks confirm that SeeingSounds outperforms existing methods in both zero-shot and supervised settings, establishing a new state of the art in controllable audio-to-visual generation.
- Abstract(参考訳): SeeingSoundsは、オーディオ、言語、視覚の相互作用を活用する軽量でモジュラーなオーディオ画像生成フレームワークで、ペアのオーディオ視覚データや視覚生成モデルのトレーニングを必要とせずに導入する。
本手法は,音声をテキストの代用として扱うか,あるいは音声からテキストへのマッピングにのみ依存するのではなく,音声を凍結言語エンコーダを介して意味言語空間に投影し,視覚言語モデルを用いて視覚領域にコンテキスト的に接地する。
このアプローチは認知神経科学にインスパイアされ、人間の知覚で観察される自然な相互関連を反映している。
このモデルは凍結拡散バックボーンで動作し、軽量アダプタのみを訓練し、効率的でスケーラブルな学習を可能にする。
さらに、プロシージャテキストプロンプト生成による微粒化および解釈可能な制御をサポートし、音声変換(例えば音量やピッチシフト)が視覚出力を導く記述的プロンプト(例えば「遠方の雷」)に変換される。
標準ベンチマークの広範な実験により、SeeeingSoundsはゼロショットと教師付きセッティングの両方で既存のメソッドよりも優れており、制御可能なオーディオ・ビジュアル生成における新しい最先端技術を確立していることが確認された。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。