論文の概要: Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
- arxiv url: http://arxiv.org/abs/2308.09514v1
- Date: Fri, 18 Aug 2023 12:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:17:28.762905
- Title: Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
- Title(参考訳): Space LibriSpeech:空間オーディオ学習のための拡張データセット
- Authors: Miguel Sarabia, Elena Menyaylenko, Alessandro Toso, Skyler Seto,
Zakaria Aldeneh, Shadi Pirhosseinloo, Luca Zappella, Barry-John Theobald,
Nicholas Apostoloff, Jonathan Sheaffer
- Abstract要約: 本研究では,空間音響データセットを650時間以上の19チャンネル音声,1次アンビソニクス,任意ノイズで提示する。
Space LibriSpeechは機械学習モデルトレーニング用に設計されており、ソース位置、発話方向、室内音響、幾何学のラベルが含まれている。
- 参考スコア(独自算出の注目度): 39.605491316273046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Spatial LibriSpeech, a spatial audio dataset with over 650 hours
of 19-channel audio, first-order ambisonics, and optional distractor noise.
Spatial LibriSpeech is designed for machine learning model training, and it
includes labels for source position, speaking direction, room acoustics and
geometry. Spatial LibriSpeech is generated by augmenting LibriSpeech samples
with 200k+ simulated acoustic conditions across 8k+ synthetic rooms. To
demonstrate the utility of our dataset, we train models on four spatial audio
tasks, resulting in a median absolute error of 6.60{\deg} on 3D source
localization, 0.43m on distance, 90.66ms on T30, and 2.74dB on DRR estimation.
We show that the same models generalize well to widely-used evaluation
datasets, e.g., obtaining a median absolute error of 12.43{\deg} on 3D source
localization on TUT Sound Events 2018, and 157.32ms on T30 estimation on ACE
Challenge.
- Abstract(参考訳): そこで本稿では,19チャンネルオーディオ650時間以上の空間音声データセットであるspatial librispeechについて述べる。
Space LibriSpeechは機械学習モデルトレーニング用に設計されており、ソース位置、発話方向、室内音響、幾何学のラベルが含まれている。
空間的LibriSpeechは、8k以上の合成室で200k以上の模擬音響条件でLibriSpeechサンプルを増強することによって生成される。
データセットの有用性を示すために、4つの空間オーディオタスクのモデルをトレーニングし、3dソースのローカライズでは6.60{\deg}、距離では0.43m、t30では90.66ms、drr推定では2.74dbの絶対誤差を発生させた。
同様のモデルが広く使われている評価データセット、例えば、チュート音イベントの3dソースローカライズでは12.43{\deg}、aceチャレンジではt30推定では157.32msとなる。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Novel-View Acoustic Synthesis from 3D Reconstructed Rooms [17.72902700567848]
そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
論文 参考訳(メタデータ) (2023-10-23T17:34:31Z) - Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping [8.545983117985434]
我々は、特定の地理的位置で知覚される最も可能性の高い音を予測することを含む、音の景観マッピングの課題に焦点を当てる。
我々は、最近の最先端モデルを用いて、ジオタグ付き音声を符号化し、音声のテキスト記述と、そのキャプチャ位置のオーバーヘッド画像を作成する。
我々のアプローチは既存のSOTAよりも優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されている。
論文 参考訳(メタデータ) (2023-09-19T14:49:50Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Improving Unsupervised Sparsespeech Acoustic Models with Categorical
Reparameterization [31.977418525076626]
本研究では,Sparsespeechモデルを拡張して,確率変数をサンプリングし,擬似後生図を生成する。
新しい改良されたモデルは、限定的または無監督のASRのベンチマークであるLibri-Light corpusでトレーニングされ、評価されている。
改良されたモデルを用いて, 話者間でのABX誤差率を31.4%まで改善した。
論文 参考訳(メタデータ) (2020-05-29T13:58:36Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。