論文の概要: In-the-wild Audio Spatialization with Flexible Text-guided Localization
- arxiv url: http://arxiv.org/abs/2506.00927v1
- Date: Sun, 01 Jun 2025 09:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.796637
- Title: In-the-wild Audio Spatialization with Flexible Text-guided Localization
- Title(参考訳): フレキシブルテキスト誘導型音声空間化
- Authors: Tianrui Pan, Jie Liu, Zewen Huang, Jie Tang, Gangshan Wu,
- Abstract要約: 没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。
既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。
フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.60344400859993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enhance immersive experiences, binaural audio offers spatial awareness of sounding objects in AR, VR, and embodied AI applications. While existing audio spatialization methods can generally map any available monaural audio to binaural audio signals, they often lack the flexible and interactive control needed in complex multi-object user-interactive environments. To address this, we propose a Text-guided Audio Spatialization (TAS) framework that utilizes flexible text prompts and evaluates our model from unified generation and comprehension perspectives. Due to the limited availability of premium and large-scale stereo data, we construct the SpatialTAS dataset, which encompasses 376,000 simulated binaural audio samples to facilitate the training of our model. Our model learns binaural differences guided by 3D spatial location and relative position prompts, augmented by flipped-channel audio. It outperforms existing methods on both simulated and real-recorded datasets, demonstrating superior generalization and accuracy. Besides, we develop an assessment model based on Llama-3.1-8B, which evaluates the spatial semantic coherence between our generated binaural audio and text prompts through a spatial reasoning task. Results demonstrate that text prompts provide flexible and interactive control to generate binaural audio with excellent quality and semantic consistency in spatial locations. Dataset is available at \href{https://github.com/Alice01010101/TASU}
- Abstract(参考訳): 没入感を高めるために、バイノーラルオーディオはAR、VR、組み込みAIアプリケーション内の音の物体を空間的に認識する。
既存のオーディオ空間化手法では、利用可能なモノラルオーディオをバイノーラルオーディオ信号にマッピングすることができるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性は欠如していることが多い。
そこで本稿では,フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
プレミアムデータや大規模ステレオデータの入手が限られているため,376,000の模擬バイノーラルオーディオサンプルを含むSpatialTASデータセットを構築し,モデルのトレーニングを容易にする。
提案モデルでは,3次元空間的位置と相対位置のプロンプトによって誘導されるバイノーラルな差異を,フリップチャネルオーディオによって学習する。
シミュレーションと実記録の両方で既存の手法よりも優れており、より優れた一般化と精度を示している。
さらに,Llama-3.1-8Bに基づく評価モデルを構築し,空間的推論タスクを通じて生成したバイノーラル音声とテキストプロンプト間の空間的意味的コヒーレンスを評価する。
その結果、テキストプロンプトは、空間的位置における品質とセマンティック一貫性に優れたバイノーラルオーディオを生成するために、柔軟でインタラクティブな制御を提供することを示した。
Dataset は \href{https://github.com/Alice010101/TASU} で利用可能である。
関連論文リスト
- Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。