論文の概要: DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.13927v1
- Date: Wed, 17 Sep 2025 12:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.840968
- Title: DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models
- Title(参考訳): DSpAST:大規模言語モデルを用いた空間音響推論のためのアンタングル表現
- Authors: Kevin Wilkinghoff, Zheng-Hua Tan,
- Abstract要約: 大きな言語モデルによる空間オーディオの推論には、音響フロントエンドとしての空間オーディオエンコーダが必要である。
本研究では,空間音響のアンタングル表現を学習するSpatialASTに基づく新しいオーディオエンコーダであるDSpASTについて述べる。
- 参考スコア(独自算出の注目度): 26.964114774872684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning about spatial audio with large language models requires a spatial audio encoder as an acoustic front-end to obtain audio embeddings for further processing. Such an encoder needs to capture all information required to detect the type of sound events, as well as the direction and distance of their corresponding sources. Accomplishing this with a single audio encoder is demanding as the information required for each of these tasks is mostly independent of each other. As a result, the performance obtained with a single encoder is often worse than when using task-specific audio encoders. In this work, we present DSpAST, a novel audio encoder based on SpatialAST that learns disentangled representations of spatial audio while having only 0.2% additional parameters. Experiments on SpatialSoundQA with the spatial audio reasoning system BAT demonstrate that DSpAST significantly outperforms SpatialAST.
- Abstract(参考訳): 大きな言語モデルによる空間オーディオの推論には、音響フロントエンドとしての空間オーディオエンコーダが必要である。
このようなエンコーダは、音の発生のタイプを検出するのに必要な全ての情報と、対応する音源の方向と距離をキャプチャする必要がある。
それぞれのタスクに必要な情報がほとんど独立しているため、これを1つのオーディオエンコーダに適合させることが要求されている。
その結果、単一エンコーダで得られる性能は、タスク固有のオーディオエンコーダを使用する場合よりも悪い場合が多い。
本研究では,空間音響の非交叉表現を学習し,パラメータを0.2%加えた新しいオーディオエンコーダDSpASTを提案する。
空間音響推論システムBATを用いたSpatialSoundQA実験では,DSpASTがSpatialASTより有意に優れていた。
関連論文リスト
- Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。
このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。
我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文 参考訳(メタデータ) (2025-06-10T16:37:39Z) - Learning to Upsample and Upmix Audio in the Latent Domain [14.777092647088756]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文 参考訳(メタデータ) (2025-05-31T19:27:22Z) - DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model [46.60765174200236]
本稿では,DualSpec というテキスト・音声生成フレームワークを提案する。
まず、音響イベントオーディオから潜時音響表現を抽出するための変分オートエンコーダ(VAE)を訓練する。
最後に、空間音響生成のための潜在音響表現とテキスト特徴から拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-02-26T09:01:59Z) - MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders [36.528216873338614]
本稿では,弱いエンコーダの混合物をAudioLLMフレームワークに組み込むことを提案する。
MoWEは、ベースエンコーダに比較的軽量なエンコーダのプールを補足し、音声入力に基づいて選択的にアクティベートし、モデルサイズを大幅に増大させることなく特徴抽出を強化する。
実験の結果,MoWEはマルチタスク性能を効果的に向上し,AudioLLMsの多様なオーディオタスクへの適用性を高めた。
論文 参考訳(メタデータ) (2024-09-10T16:46:18Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。