論文の概要: Gotta Hear Them All: Sound Source Aware Vision to Audio Generation
- arxiv url: http://arxiv.org/abs/2411.15447v2
- Date: Tue, 26 Nov 2024 03:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:30:38.332142
- Title: Gotta Hear Them All: Sound Source Aware Vision to Audio Generation
- Title(参考訳): ゴッタ・ハーモニー:音の再生を意識するサウンド・ソース
- Authors: Wei Guo, Heng Wang, Jianbo Ma, Weidong Cai,
- Abstract要約: Vision-to-audio (V2A) はマルチメディアに広く応用されている。
音源認識型V2A(SSV2A)ジェネレータを提案する。
SSV2Aは, 世代的忠実度と関連性の両方において, 最先端の手法を超越していることを示す。
- 参考スコア(独自算出の注目度): 13.55717701044619
- License:
- Abstract: Vision-to-audio (V2A) synthesis has broad applications in multimedia. Recent advancements of V2A methods have made it possible to generate relevant audios from inputs of videos or still images. However, the immersiveness and expressiveness of the generation are limited. One possible problem is that existing methods solely rely on the global scene and overlook details of local sounding objects (i.e., sound sources). To address this issue, we propose a Sound Source-Aware V2A (SSV2A) generator. SSV2A is able to locally perceive multimodal sound sources from a scene with visual detection and cross-modality translation. It then contrastively learns a Cross-Modal Sound Source (CMSS) Manifold to semantically disambiguate each source. Finally, we attentively mix their CMSS semantics into a rich audio representation, from which a pretrained audio generator outputs the sound. To model the CMSS manifold, we curate a novel single-sound-source visual-audio dataset VGGS3 from VGGSound. We also design a Sound Source Matching Score to measure localized audio relevance. This is to our knowledge the first work to address V2A generation at the sound-source level. Extensive experiments show that SSV2A surpasses state-of-the-art methods in both generation fidelity and relevance. We further demonstrate SSV2A's ability to achieve intuitive V2A control by compositing vision, text, and audio conditions. Our SSV2A generation can be tried and heard at https://ssv2a.github.io/SSV2A-demo .
- Abstract(参考訳): ヴィジュアル・トゥ・オーディオ(V2A)合成はマルチメディアに広く応用されている。
近年のV2A法の進歩により、ビデオや静止画像の入力から関連する音声を生成できるようになった。
しかし、世代内の没入性や表現性は限られている。
問題の1つは、既存の手法がグローバルなシーンにのみ依存し、局所的な音の物体(すなわち、音源)の細部を見渡すことである。
そこで本研究では,音源認識V2A(SSV2A)ジェネレータを提案する。
SSV2Aは、視覚的検出と相互モダリティ変換を備えたシーンから、局所的にマルチモーダル音源を知覚することができる。
対照的に、Cross-Modal Sound Source (CMSS) Manifoldを学習し、各ソースを意味的に曖昧にする。
最後に、CMSSのセマンティクスをリッチな音声表現に注意深く混合し、事前学習したオーディオ生成者が出力する。
CMSS多様体をモデル化するために,VGGSoundから単一音源のビジュアルオーディオデータセットVGGS3をキュレートする。
また、局所的なオーディオ関連度を測定するために、音源マッチングスコアを設計する。
これは、サウンドソースレベルでV2A生成に対処する最初の取り組みである。
大規模な実験により、SSV2Aは世代の忠実さと関連性の両方において最先端の手法を超越していることが示されている。
さらに、視覚、テキスト、音声条件を合成することにより、直感的なV2A制御を実現するSSV2Aの能力を実証する。
私たちのSSV2A世代はhttps://ssv2a.github.io/SSV2A-demo で試すことができます。
関連論文リスト
- Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文 参考訳(メタデータ) (2023-05-24T17:59:03Z) - Audio-Visual Grouping Network for Sound Localization from Mixtures [30.756247389435803]
従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。
入力オーディオと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習できる新しい音声視覚グループネットワークであるAVGNを提案する。
既存のマルチソース手法と比較して,我々の新しいフレームワークはフレキシブルな複数の音源をローカライズし,個々の音源に対してカテゴリ対応の音響視覚表現をアンタングル化することができる。
論文 参考訳(メタデータ) (2023-03-29T22:58:55Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。