論文の概要: Self-supervised Neural Audio-Visual Sound Source Localization via
Probabilistic Spatial Modeling
- arxiv url: http://arxiv.org/abs/2007.13976v1
- Date: Tue, 28 Jul 2020 03:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 03:14:09.867959
- Title: Self-supervised Neural Audio-Visual Sound Source Localization via
Probabilistic Spatial Modeling
- Title(参考訳): 確率空間モデルによる自己教師付きニューラルオーディオ-ビジュアル音源定位
- Authors: Yoshiki Masuyama, Yoshiaki Bando, Kohei Yatabe, Yoko Sasaki, Masaki
Onishi, Yasuhiro Oikawa
- Abstract要約: 本稿では,360deg画像とマルチチャンネル音声信号を用いた自己教師型トレーニング手法を提案する。
マルチチャンネル音声信号に空間情報を組み込むことで、ディープニューラルネットワーク(DNN)を訓練し、複数の音源を識別する。
また、DNNは、科学博物館で記録された実際のデータから、会話客や特定の展示物を含む物体を検出した。
- 参考スコア(独自算出の注目度): 45.20508569656558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting sound source objects within visual observation is important for
autonomous robots to comprehend surrounding environments. Since sounding
objects have a large variety with different appearances in our living
environments, labeling all sounding objects is impossible in practice. This
calls for self-supervised learning which does not require manual labeling. Most
of conventional self-supervised learning uses monaural audio signals and images
and cannot distinguish sound source objects having similar appearances due to
poor spatial information in audio signals. To solve this problem, this paper
presents a self-supervised training method using 360{\deg} images and
multichannel audio signals. By incorporating with the spatial information in
multichannel audio signals, our method trains deep neural networks (DNNs) to
distinguish multiple sound source objects. Our system for localizing sound
source objects in the image is composed of audio and visual DNNs. The visual
DNN is trained to localize sound source candidates within an input image. The
audio DNN verifies whether each candidate actually produces sound or not. These
DNNs are jointly trained in a self-supervised manner based on a probabilistic
spatial audio model. Experimental results with simulated data showed that the
DNNs trained by our method localized multiple speakers. We also demonstrate
that the visual DNN detected objects including talking visitors and specific
exhibits from real data recorded in a science museum.
- Abstract(参考訳): 自律型ロボットが周囲の環境を理解するためには,視覚観測における音源検出が重要である。
音波物体は我々の生活環境において様々な外観を持つため、すべての音波物体のラベル付けは実際には不可能である。
これは手動のラベリングを必要としない自己教師付き学習を要求する。
従来の自己教師付き学習のほとんどは、モナウラル音声信号と画像を使用しており、オーディオ信号の空間情報不足のため、類似した外観を持つ音源オブジェクトを区別できない。
そこで本稿では,360{\deg}画像とマルチチャンネル音声信号を用いた自己教師あり学習手法を提案する。
マルチチャネル音声信号に空間情報を組み込むことにより,深層ニューラルネットワーク(dnn)を訓練し,複数の音源物体を識別する。
画像中の音源オブジェクトをローカライズするシステムは,音声と視覚のDNNで構成されている。
視覚的DNNは、入力画像内の音源候補をローカライズするように訓練される。
オーディオDNNは、各候補が実際に音声を生成するか否かを検証する。
これらのDNNは、確率論的空間オーディオモデルに基づいて、自己管理的な方法で共同で訓練される。
シミュレーションデータを用いた実験の結果,複数の話者を局所化したdnnが得られた。
また,視覚dnnは,科学博物館に記録された実データから,講演者や展示物を含む物体を検知した。
関連論文リスト
- DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T08:31:58Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound [16.99266133458188]
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:00:24Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。