論文の概要: SoundSculpt: Direction and Semantics Driven Ambisonic Target Sound Extraction
- arxiv url: http://arxiv.org/abs/2506.00273v1
- Date: Fri, 30 May 2025 22:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.17335
- Title: SoundSculpt: Direction and Semantics Driven Ambisonic Target Sound Extraction
- Title(参考訳): SoundSculpt: 指向性とセマンティック駆動型アンビソン的ターゲット音抽出
- Authors: Tuochao Chen, D Shin, Hakan Erdogan, Sinan Hersek,
- Abstract要約: SoundSculptは、アンビソニック録音からターゲット音場を抽出するように設計されたニューラルネットワークである。
SoundSculptはアンビソニック・イン・アンビソニック・アウトアーキテクチャを採用しており、空間情報とセマンティック・埋め込みの両方を条件にしている。
- 参考スコア(独自算出の注目度): 5.989764659998189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces SoundSculpt, a neural network designed to extract target sound fields from ambisonic recordings. SoundSculpt employs an ambisonic-in-ambisonic-out architecture and is conditioned on both spatial information (e.g., target direction obtained by pointing at an immersive video) and semantic embeddings (e.g., derived from image segmentation and captioning). Trained and evaluated on synthetic and real ambisonic mixtures, SoundSculpt demonstrates superior performance compared to various signal processing baselines. Our results further reveal that while spatial conditioning alone can be effective, the combination of spatial and semantic information is beneficial in scenarios where there are secondary sound sources spatially close to the target. Additionally, we compare two different semantic embeddings derived from a text description of the target sound using text encoders.
- Abstract(参考訳): 本稿では,環境音場から対象音場を抽出するニューラルネットワークSoundSculptを紹介する。
SoundSculptはアンビソニック・イン・アンビソニック・アウト(ambisonic-in-ambisonic-out)アーキテクチャを採用しており、空間情報(例えば、没入型ビデオを指して得られるターゲット方向)とセマンティック埋め込み(例えば、画像のセグメンテーションとキャプションから派生した)の両方に条件付けされている。
SoundSculptは、合成および実アンビソニック混合物に基づいて訓練され、評価され、様々な信号処理ベースラインよりも優れた性能を示す。
さらに, 空間条件だけでは有効であるが, 空間的情報と意味的情報の組み合わせは, ターゲットに空間的に近接する二次音源が存在する場合にも有効であることを示した。
さらに,テキストエンコーダを用いた対象音のテキスト記述から得られた2つの意味埋め込みを比較する。
関連論文リスト
- ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。