論文の概要: BAT: Learning to Reason about Spatial Sounds with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.01591v1
- Date: Fri, 2 Feb 2024 17:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:02:44.296761
- Title: BAT: Learning to Reason about Spatial Sounds with Large Language Models
- Title(参考訳): BAT:大規模言語モデルによる空間音の推論学習
- Authors: Zhisheng Zheng, Puyuan Peng, Ziyang Ma, Xie Chen, Eunsol Choi, David
Harwath
- Abstract要約: 本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
- 参考スコア(独自算出の注目度): 48.48501269805149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial sound reasoning is a fundamental human skill, enabling us to navigate
and interpret our surroundings based on sound. In this paper we present BAT,
which combines the spatial sound perception ability of a binaural acoustic
scene analysis model with the natural language reasoning capabilities of a
large language model (LLM) to replicate this innate ability. To address the
lack of existing datasets of in-the-wild spatial sounds, we synthesized a
binaural audio dataset using AudioSet and SoundSpaces 2.0. Next, we developed
SpatialSoundQA, a spatial sound-based question-answering dataset, offering a
range of QA tasks that train BAT in various aspects of spatial sound perception
and reasoning. The acoustic front end encoder of BAT is a novel spatial audio
encoder named Spatial Audio Spectrogram Transformer, or Spatial-AST, which by
itself achieves strong performance across sound event detection, spatial
localization, and distance estimation. By integrating Spatial-AST with LLaMA-2
7B model, BAT transcends standard Sound Event Localization and Detection (SELD)
tasks, enabling the model to reason about the relationships between the sounds
in its environment. Our experiments demonstrate BAT's superior performance on
both spatial sound perception and reasoning, showcasing the immense potential
of LLMs in navigating and interpreting complex spatial audio environments.
- Abstract(参考訳): 空間音の推論は人間の基本的なスキルであり、音に基づいて周囲をナビゲートし解釈することができる。
本稿では,バイノーラル音響シーン解析モデルの空間音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせることで,本能力を再現するBATを提案する。
実空間音の既存のデータセットの欠如に対処するため,オーディオセットとサウンドスペース2.0を用いてバイノーラル音声データセットを合成した。
次に,空間音響に基づく質問応答データセットであるSpatialSoundQAを開発し,空間音知覚と推論の様々な側面において,BATを訓練する様々なQAタスクを提供した。
BATの音響フロントエンドエンコーダは、空間音響スペクトログラム変換器(Spatial Audio Spectrogram Transformer、Spatial-AST)と呼ばれる新しい空間オーディオエンコーダであり、音響事象の検出、空間的局所化、距離推定などを通じて高い性能を達成する。
空間ASTをLLaMA-2 7Bモデルと統合することにより、BATは標準的な音事象の局所化と検出(SELD)タスクを超越し、モデルが環境内の音間の関係を推論できるようにする。
本実験は,空間音知覚と推論の両方においてbatの優れた性能を示し,複雑な空間音響環境のナビゲートと解釈におけるllmの可能性を示す。
関連論文リスト
- ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。
空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。