Fugu-MT 論文翻訳(概要): BAT: Learning to Reason about Spatial Sounds with Large Language Models

論文の概要: BAT: Learning to Reason about Spatial Sounds with Large Language Models

arxiv url: http://arxiv.org/abs/2402.01591v1
Date: Fri, 2 Feb 2024 17:34:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 14:02:44.296761
Title: BAT: Learning to Reason about Spatial Sounds with Large Language Models
Title（参考訳）: BAT:大規模言語モデルによる空間音の推論学習
Authors: Zhisheng Zheng, Puyuan Peng, Ziyang Ma, Xie Chen, Eunsol Choi, David Harwath
Abstract要約: 本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
参考スコア（独自算出の注目度）: 48.48501269805149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spatial sound reasoning is a fundamental human skill, enabling us to navigate and interpret our surroundings based on sound. In this paper we present BAT, which combines the spatial sound perception ability of a binaural acoustic scene analysis model with the natural language reasoning capabilities of a large language model (LLM) to replicate this innate ability. To address the lack of existing datasets of in-the-wild spatial sounds, we synthesized a binaural audio dataset using AudioSet and SoundSpaces 2.0. Next, we developed SpatialSoundQA, a spatial sound-based question-answering dataset, offering a range of QA tasks that train BAT in various aspects of spatial sound perception and reasoning. The acoustic front end encoder of BAT is a novel spatial audio encoder named Spatial Audio Spectrogram Transformer, or Spatial-AST, which by itself achieves strong performance across sound event detection, spatial localization, and distance estimation. By integrating Spatial-AST with LLaMA-2 7B model, BAT transcends standard Sound Event Localization and Detection (SELD) tasks, enabling the model to reason about the relationships between the sounds in its environment. Our experiments demonstrate BAT's superior performance on both spatial sound perception and reasoning, showcasing the immense potential of LLMs in navigating and interpreting complex spatial audio environments.
Abstract（参考訳）: 空間音の推論は人間の基本的なスキルであり、音に基づいて周囲をナビゲートし解釈することができる。本稿では,バイノーラル音響シーン解析モデルの空間音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせることで,本能力を再現するBATを提案する。実空間音の既存のデータセットの欠如に対処するため,オーディオセットとサウンドスペース2.0を用いてバイノーラル音声データセットを合成した。次に,空間音響に基づく質問応答データセットであるSpatialSoundQAを開発し,空間音知覚と推論の様々な側面において,BATを訓練する様々なQAタスクを提供した。 BATの音響フロントエンドエンコーダは、空間音響スペクトログラム変換器(Spatial Audio Spectrogram Transformer、Spatial-AST)と呼ばれる新しい空間オーディオエンコーダであり、音響事象の検出、空間的局所化、距離推定などを通じて高い性能を達成する。空間ASTをLLaMA-2 7Bモデルと統合することにより、BATは標準的な音事象の局所化と検出(SELD)タスクを超越し、モデルが環境内の音間の関係を推論できるようにする。本実験は,空間音知覚と推論の両方においてbatの優れた性能を示し,複雑な空間音響環境のナビゲートと解釈におけるllmの可能性を示す。

関連論文リスト

SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文参考訳（メタデータ） (2025-08-01T17:05:04Z)
MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。 MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文参考訳（メタデータ） (2025-07-16T06:33:11Z)
In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-01T09:41:56Z)
DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model [48.57556892287629]
本稿では,DualSpec というテキスト・音声生成フレームワークを提案する。まず、音響イベントオーディオから潜時音響表現を抽出するための変分オートエンコーダ(VAE)を訓練する。最後に、空間音響生成のための潜在音響表現とテキスト特徴から拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-02-26T09:01:59Z)
ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文参考訳（メタデータ） (2024-10-19T02:28:53Z)
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文参考訳（メタデータ） (2024-10-14T16:18:29Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。提案手法はより堅牢な音源定位を実現する。
論文参考訳（メタデータ） (2023-08-11T11:57:58Z)
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文参考訳（メタデータ） (2023-02-04T04:17:19Z)
SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。 SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文参考訳（メタデータ） (2022-06-16T17:17:44Z)
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文参考訳（メタデータ） (2021-11-21T19:26:45Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。