論文の概要: TTMBA: Towards Text To Multiple Sources Binaural Audio Generation
- arxiv url: http://arxiv.org/abs/2507.16564v1
- Date: Tue, 22 Jul 2025 13:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.12544
- Title: TTMBA: Towards Text To Multiple Sources Binaural Audio Generation
- Title(参考訳): TTMBA:バイノーラル・オーディオ・ジェネレーションのテキスト化を目指す
- Authors: Yuxuan He, Xiaoran Yang, Ningning Pan, Gongping Huang,
- Abstract要約: 本稿では,時間的・空間的制御を併用したテキスト・マルチソース音声生成(TTMBA)のケースド手法を提案する。
事前訓練された大言語モデル(LLM)は、各音声イベントの時間と空間の詳細とともに、テキストを構造化形式に分割する。
事前訓練されたモノオーディオ生成ネットワークは、イベント毎に異なる期間で複数のモノオーディオを生成する。
- 参考スコア(独自算出の注目度): 7.4522240306102745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing text-to-audio (TTA) generation methods produce mono outputs, neglecting essential spatial information for immersive auditory experiences. To address this issue, we propose a cascaded method for text-to-multisource binaural audio generation (TTMBA) with both temporal and spatial control. First, a pretrained large language model (LLM) segments the text into a structured format with time and spatial details for each sound event. Next, a pretrained mono audio generation network creates multiple mono audios with varying durations for each event. These mono audios are transformed into binaural audios using a binaural rendering neural network based on spatial data from the LLM. Finally, the binaural audios are arranged by their start times, resulting in multisource binaural audio. Experimental results demonstrate the superiority of the proposed method in terms of both audio generation quality and spatial perceptual accuracy.
- Abstract(参考訳): 既存のテキスト・トゥ・オーディオ(TTA)生成手法は、入射音体験に欠かせない空間情報を無視してモノ出力を生成する。
そこで本稿では,テキストからマルチソースのバイノーラル音声生成(TTMBA)を時間的・空間的に制御する手法を提案する。
まず、事前訓練された大言語モデル(LLM)が、各音声イベントの時間的・空間的詳細とともに、テキストを構造化形式に分割する。
次に、事前訓練されたモノオーディオ生成ネットワークは、イベント毎に異なる期間で複数のモノオーディオを生成する。
これらのモノオーディオは、LLMの空間データに基づくバイノーラルレンダリングニューラルネットワークを用いてバイノーラルオーディオに変換される。
最後に、バイノーラルオーディオは開始時刻によって配置され、その結果、マルチソースのバイノーラルオーディオとなる。
実験により,音質と空間知覚精度の両面から提案手法の優位性を示した。
関連論文リスト
- In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。
既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。
フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:41:56Z) - DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model [46.60765174200236]
本稿では,DualSpec というテキスト・音声生成フレームワークを提案する。
まず、音響イベントオーディオから潜時音響表現を抽出するための変分オートエンコーダ(VAE)を訓練する。
最後に、空間音響生成のための潜在音響表現とテキスト特徴から拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-02-26T09:01:59Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。