論文の概要: DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection
- arxiv url: http://arxiv.org/abs/2410.22803v1
- Date: Wed, 30 Oct 2024 08:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:34.682657
- Title: DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection
- Title(参考訳): 音響イベントの定位と検出のためのDOA対応オーディオ・ビジュアル・セルフ・スーパーバイザード・ラーニング
- Authors: Yoto Fujita, Yoshiaki Bando, Keisuke Imoto, Masaki Onishi, Kazuyoshi Yoshii,
- Abstract要約: 本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
- 参考スコア(独自算出の注目度): 16.92604848450722
- License:
- Abstract: This paper describes sound event localization and detection (SELD) for spatial audio recordings captured by firstorder ambisonics (FOA) microphones. In this task, one may train a deep neural network (DNN) using FOA data annotated with the classes and directions of arrival (DOAs) of sound events. However, the performance of this approach is severely bounded by the amount of annotated data. To overcome this limitation, we propose a novel method of pretraining the feature extraction part of the DNN in a self-supervised manner. We use spatial audio-visual recordings abundantly available as virtual reality contents. Assuming that sound objects are concurrently observed by the FOA microphones and the omni-directional camera, we jointly train audio and visual encoders with contrastive learning such that the audio and visual embeddings of the same recording and DOA are made close. A key feature of our method is that the DOA-wise audio embeddings are jointly extracted from the raw audio data, while the DOA-wise visual embeddings are separately extracted from the local visual crops centered on the corresponding DOA. This encourages the latent features of the audio encoder to represent both the classes and DOAs of sound events. The experiment using the DCASE2022 Task 3 dataset of 20 hours shows non-annotated audio-visual recordings of 100 hours reduced the error score of SELD from 36.4 pts to 34.9 pts.
- Abstract(参考訳): 本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
このタスクでは、音響イベントのクラスと到着方向(DOA)にアノテートされたFOAデータを使用してディープニューラルネットワーク(DNN)をトレーニングすることができる。
しかし,本手法の性能は注釈付きデータの量に大きく左右される。
この制限を克服するために,DNNの特徴抽出部分を自己指導的に事前学習する手法を提案する。
バーチャルリアリティコンテンツとして利用できる空間的オーディオ映像記録を多用する。
FOAマイクロホンと全方位カメラが同時に音響オブジェクトを観測すると、音声と視覚のエンコーダを対照学習で訓練し、同じ録音とDOAの音響と視覚の埋め込みを近接させる。
本手法の重要な特徴は、生音声データからDOA-wiseオーディオ埋め込みを共同抽出し、DOA-wiseビジュアル埋め込みを対応するDOAを中心とした局所視覚作物から別々に抽出することである。
これにより、オーディオエンコーダの潜在機能は、サウンドイベントのクラスとDOAの両方を表現することができる。
DCASE2022 Task 3のデータセットを20時間に使用した実験では、注釈なしの音声視覚記録が100時間に短縮され、SELDの誤差スコアが36.4 ptsから34.9 ptsに低下した。
関連論文リスト
- LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events [30.459545240265246]
音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。
本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
論文 参考訳(メタデータ) (2023-06-15T13:37:14Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Self-supervised Neural Audio-Visual Sound Source Localization via
Probabilistic Spatial Modeling [45.20508569656558]
本稿では,360deg画像とマルチチャンネル音声信号を用いた自己教師型トレーニング手法を提案する。
マルチチャンネル音声信号に空間情報を組み込むことで、ディープニューラルネットワーク(DNN)を訓練し、複数の音源を識別する。
また、DNNは、科学博物館で記録された実際のデータから、会話客や特定の展示物を含む物体を検出した。
論文 参考訳(メタデータ) (2020-07-28T03:52:53Z) - Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound [16.99266133458188]
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。