論文の概要: Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
- arxiv url: http://arxiv.org/abs/2504.18283v1
- Date: Fri, 25 Apr 2025 11:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.759324
- Title: Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
- Title(参考訳): サウンドスケープを見る:オーディオ・ビジュアル・セパレータを用いたオーディオ・ビジュアル・ジェネレーションと音源分離
- Authors: Minjae Kang, Martim Brandão,
- Abstract要約: 音環境から画像を生成するためのAV-GAS(Audio-Visual Generation and separation model)を提案する。
まず、マルチクラスの音声入力を与えられた画像を生成することを目的として、音声視覚生成タスクに新たな課題を提案する。
第2に、混合音声入力に存在する各クラス毎に別々の画像を生成する新しい音声-視覚分離タスクを導入する。
- 参考スコア(独自算出の注目度): 3.082874165638936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent audio-visual generative models have made substantial progress in generating images from audio. However, existing approaches focus on generating images from single-class audio and fail to generate images from mixed audio. To address this, we propose an Audio-Visual Generation and Separation model (AV-GAS) for generating images from soundscapes (mixed audio containing multiple classes). Our contribution is threefold: First, we propose a new challenge in the audio-visual generation task, which is to generate an image given a multi-class audio input, and we propose a method that solves this task using an audio-visual separator. Second, we introduce a new audio-visual separation task, which involves generating separate images for each class present in a mixed audio input. Lastly, we propose new evaluation metrics for the audio-visual generation task: Class Representation Score (CRS) and a modified R@K. Our model is trained and evaluated on the VGGSound dataset. We show that our method outperforms the state-of-the-art, achieving 7% higher CRS and 4% higher R@2* in generating plausible images with mixed audio.
- Abstract(参考訳): 最近の音声-視覚生成モデルは、音声から画像を生成することに大きく進歩している。
しかし、既存のアプローチでは、シングルクラスの音声から画像を生成することに重点を置いており、混合オーディオから画像を生成することに失敗している。
そこで本研究では,音環境(複数のクラスを含む混合音声)から画像を生成するAV-GASモデルを提案する。
まず,マルチクラスの音声入力を与えられた画像を生成するという,音声視覚生成タスクにおける新たな課題を提案し,この課題を音声視覚分離器を用いて解決する手法を提案する。
第2に、混合音声入力に存在する各クラス毎に別々の画像を生成する新しい音声-視覚分離タスクを導入する。
最後に、クラス表現スコア(CRS)と修正R@Kという、オーディオ視覚生成タスクのための新しい評価指標を提案する。
我々のモデルは、VGGSoundデータセットに基づいて訓練され、評価される。
提案手法は, 合成音声による可塑性画像の生成において, CRSが7%, R@2*が4%向上し, 最先端技術よりも優れていた。
関連論文リスト
- MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment [20.54227825704359]
マルチソース音声画像生成のためのMACS法を提案する。
これは、画像生成の前にリッチオーディオコンポーネントをキャプチャするために、マルチソースオーディオを明示的に分離する最初の作品である。
提案したMACSは,全タスクにおける21評価指標のうち17項目において,現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-13T11:56:25Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。