論文の概要: Learning Multiple Sound Source 2D Localization
- arxiv url: http://arxiv.org/abs/2012.05515v1
- Date: Thu, 10 Dec 2020 08:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:06:01.851407
- Title: Learning Multiple Sound Source 2D Localization
- Title(参考訳): 複数音源の2次元定位学習
- Authors: Guillaume Le Moing, Phongtharin Vinayavekhin, Tadanobu Inoue, Jayakorn
Vongkulbhisal, Asim Munawar, Ryuki Tachibana, Don Joven Agravante
- Abstract要約: 複数音源定位のための深層学習に基づく新しいアルゴリズムを提案する。
エンコーディングデコードアーキテクチャを使用して、タスクを達成するために2つの改善を提案します。
解像度に基づく複数ソースアソシエーションに基づく新しいメトリクスが開発されている。
- 参考スコア(独自算出の注目度): 7.564344795030588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose novel deep learning based algorithms for multiple
sound source localization. Specifically, we aim to find the 2D Cartesian
coordinates of multiple sound sources in an enclosed environment by using
multiple microphone arrays. To this end, we use an encoding-decoding
architecture and propose two improvements on it to accomplish the task. In
addition, we also propose two novel localization representations which increase
the accuracy. Lastly, new metrics are developed relying on resolution-based
multiple source association which enables us to evaluate and compare different
localization approaches. We tested our method on both synthetic and real world
data. The results show that our method improves upon the previous baseline
approach for this problem.
- Abstract(参考訳): 本稿では,複数音源定位のための深層学習に基づく新しいアルゴリズムを提案する。
具体的には、複数のマイクロホンアレイを用いて、囲んだ環境で複数の音源の2次元カルト座標を求める。
この目的のために,符号化復号化アーキテクチャを用いて2つの改良点を提案する。
さらに,精度を向上させる2つの新しい局在表現を提案する。
最後に、解像度に基づく複数ソースアソシエーションに基づいて、異なるローカライズアプローチの評価と比較を可能にする新しいメトリクスを開発した。
本手法を合成データと実データの両方でテストした。
その結果,本手法は従来のベースラインアプローチにより改善することが判明した。
関連論文リスト
- Local and Global Decoding in Text Generation [36.38298679687864]
テキスト生成は、言語モデル分布から文字列をサンプリングする復号アルゴリズムに依存する。
本稿では,これらの復号化手法のグローバル正規化版の導入による歪みの影響について検討する。
この結果から,歪みは局所復号アルゴリズムの重要な特徴であることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:38Z) - Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - Acoustic-Net: A Novel Neural Network for Sound Localization and
Quantification [28.670240455952317]
アコースティックネットと呼ばれる新しいニューラルネットワークが提案され、音源の特定と定量化が可能である。
実験により,提案手法は音源予測の精度と計算速度を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2022-03-31T12:20:09Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Active Restoration of Lost Audio Signals Using Machine Learning and
Latent Information [0.7252027234425334]
本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端の浅層・深層学習法の組み合わせを提案する。
本研究では,信号対雑音比(SNR),目標差次数(ODG),およびハンセンの音質測定値を用いて,塗装性能の向上を示す。
論文 参考訳(メタデータ) (2021-11-21T20:11:33Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。