論文の概要: SoundSculpt: Direction and Semantics Driven Ambisonic Target Sound Extraction
- arxiv url: http://arxiv.org/abs/2506.00273v1
- Date: Fri, 30 May 2025 22:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.17335
- Title: SoundSculpt: Direction and Semantics Driven Ambisonic Target Sound Extraction
- Title(参考訳): SoundSculpt: 指向性とセマンティック駆動型アンビソン的ターゲット音抽出
- Authors: Tuochao Chen, D Shin, Hakan Erdogan, Sinan Hersek,
- Abstract要約: SoundSculptは、アンビソニック録音からターゲット音場を抽出するように設計されたニューラルネットワークである。
SoundSculptはアンビソニック・イン・アンビソニック・アウトアーキテクチャを採用しており、空間情報とセマンティック・埋め込みの両方を条件にしている。
- 参考スコア(独自算出の注目度): 5.989764659998189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces SoundSculpt, a neural network designed to extract target sound fields from ambisonic recordings. SoundSculpt employs an ambisonic-in-ambisonic-out architecture and is conditioned on both spatial information (e.g., target direction obtained by pointing at an immersive video) and semantic embeddings (e.g., derived from image segmentation and captioning). Trained and evaluated on synthetic and real ambisonic mixtures, SoundSculpt demonstrates superior performance compared to various signal processing baselines. Our results further reveal that while spatial conditioning alone can be effective, the combination of spatial and semantic information is beneficial in scenarios where there are secondary sound sources spatially close to the target. Additionally, we compare two different semantic embeddings derived from a text description of the target sound using text encoders.
- Abstract(参考訳): 本稿では,環境音場から対象音場を抽出するニューラルネットワークSoundSculptを紹介する。
SoundSculptはアンビソニック・イン・アンビソニック・アウト(ambisonic-in-ambisonic-out)アーキテクチャを採用しており、空間情報(例えば、没入型ビデオを指して得られるターゲット方向)とセマンティック埋め込み(例えば、画像のセグメンテーションとキャプションから派生した)の両方に条件付けされている。
SoundSculptは、合成および実アンビソニック混合物に基づいて訓練され、評価され、様々な信号処理ベースラインよりも優れた性能を示す。
さらに, 空間条件だけでは有効であるが, 空間的情報と意味的情報の組み合わせは, ターゲットに空間的に近接する二次音源が存在する場合にも有効であることを示した。
さらに,テキストエンコーダを用いた対象音のテキスト記述から得られた2つの意味埋め込みを比較する。
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping [7.291750095728984]
本研究では,地球上の任意の場所における音の分布を予測するためのフレームワークであるSat2Soundを紹介する。
我々のアプローチは、音声、音声キャプション、衛星画像、衛星画像キャプションのコントラスト学習を取り入れている。
本稿では,没入型音響体験を実現する位置ベースサウンドスケープ合成法を提案する。
論文 参考訳(メタデータ) (2025-05-19T23:36:04Z) - ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。