論文の概要: Learning Spatially-Aware Language and Audio Embedding
- arxiv url: http://arxiv.org/abs/2409.11369v1
- Date: Tue, 17 Sep 2024 17:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:37:15.511144
- Title: Learning Spatially-Aware Language and Audio Embedding
- Title(参考訳): 空間認識言語とオーディオ埋め込みの学習
- Authors: Bhavika Devnani, Skyler Seto, Zakaria Aldeneh, Alessandro Toso, Elena Menyaylenko, Barry-John Theobald, Jonathan Sheaffer, Miguel Sarabia,
- Abstract要約: マルチモーダルコントラスト学習を用いて学習した空間認識音声およびテキスト埋め込みモデルを提案する。
ELSAは音声の空間的・意味的要素を記述する非空間的音声、空間的音声、オープン語彙の字幕をサポートする。
特に、ELSAはベースライン上のオーディオ・トゥ・テキストとテキスト・トゥ・オーディオのR@1を+2.8%、ベースライン上の3Dソースのローカライゼーションにおいて-11.6degの平均・絶対エラーを上回ります。
- 参考スコア(独自算出の注目度): 38.28805496854945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can picture a sound scene given an imprecise natural language description. For example, it is easy to imagine an acoustic environment given a phrase like "the lion roar came from right behind me!". For a machine to have the same degree of comprehension, the machine must know what a lion is (semantic attribute), what the concept of "behind" is (spatial attribute) and how these pieces of linguistic information align with the semantic and spatial attributes of the sound (what a roar sounds like when its coming from behind). State-of-the-art audio foundation models which learn to map between audio scenes and natural textual descriptions, are trained on non-spatial audio and text pairs, and hence lack spatial awareness. In contrast, sound event localization and detection models are limited to recognizing sounds from a fixed number of classes, and they localize the source to absolute position (e.g., 0.2m) rather than a position described using natural language (e.g., "next to me"). To address these gaps, we present ELSA a spatially aware-audio and text embedding model trained using multimodal contrastive learning. ELSA supports non-spatial audio, spatial audio, and open vocabulary text captions describing both the spatial and semantic components of sound. To train ELSA: (a) we spatially augment the audio and captions of three open-source audio datasets totaling 4,738 hours of audio, and (b) we design an encoder to capture the semantics of non-spatial audio, and the semantics and spatial attributes of spatial audio using contrastive learning. ELSA is competitive with state-of-the-art for both semantic retrieval and 3D source localization. In particular, ELSA achieves +2.8% mean audio-to-text and text-to-audio R@1 above the baseline, and outperforms by -11.6{\deg} mean-absolute-error in 3D source localization over the baseline.
- Abstract(参考訳): 人間は不正確な自然言語の記述から音のシーンを描写することができる。
例えば、"ライオンロアは私のすぐ後ろから来た!"というフレーズを与えられたアコースティックな環境を想像するのは簡単です。
機械が同じ理解度を持つためには、機械はライオンが何であるか(意味的属性)、"behind"という概念が何であるか(空間的属性)、これらの言語情報の断片が音の意味的・空間的属性とどのように一致しているかを知る必要がある。
音声シーンと自然なテキスト記述のマッピングを学習する最先端オーディオ基盤モデルは、非空間的オーディオとテキストペアで訓練され、したがって空間的認識が欠如している。
対照的に、音事象の局所化と検出モデルは、一定数のクラスから音を認識することに限定されており、自然言語を用いて記述された位置(例えば、"next to me")ではなく、ソースを絶対位置(eg , 0.2m)にローカライズする。
これらのギャップに対処するために,マルチモーダルコントラスト学習を用いて学習した空間認識音声およびテキスト埋め込みモデルを提案する。
ELSAは、音声の空間的および意味的要素を記述する非空間的オーディオ、空間的オーディオ、およびオープン語彙テキストキャプションをサポートする。
ELSAの訓練:
(a)4,738時間に及ぶ3つのオープンソースオーディオデータセットの音声とキャプションを空間的に増強し,
b) コントラスト学習を用いて,非空間的オーディオの意味と空間的オーディオの意味と空間的属性をキャプチャするエンコーダを設計する。
ELSAは、セマンティック検索と3Dソースのローカライゼーションの両方において最先端と競合している。
特に、ELSAはベースライン上のオーディオ・トゥ・テキストとテキスト・トゥ・オーディオのR@1を+2.8%で達成し、ベースライン上の3Dソースのローカライゼーションにおいて-11.6{\deg}平均絶対エラーを上回ります。
関連論文リスト
- Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文 参考訳(メタデータ) (2024-07-15T17:45:20Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文 参考訳(メタデータ) (2024-01-10T05:15:09Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。