論文の概要: Data-Efficient Framework for Real-world Multiple Sound Source 2D
Localization
- arxiv url: http://arxiv.org/abs/2012.05533v3
- Date: Wed, 17 Mar 2021 08:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:05:51.044992
- Title: Data-Efficient Framework for Real-world Multiple Sound Source 2D
Localization
- Title(参考訳): 実世界の複数音源2次元定位のためのデータ効率のよい枠組み
- Authors: Guillaume Le Moing, Phongtharin Vinayavekhin, Don Joven Agravante,
Tadanobu Inoue, Jayakorn Vongkulbhisal, Asim Munawar, Ryuki Tachibana
- Abstract要約: 実データからのラベルを必要とせずにローカリゼーション性能を向上させるための新しいアンサンブル判別法を提案する。
これにより、特定のマイクロフォンアレイレイアウトのデータでモデルをトレーニングし、推論中に見つからないレイアウトに最適化することができる。
- 参考スコア(独自算出の注目度): 7.564344795030588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have recently led to promising results for the task of
multiple sound source localization. Yet, they require a lot of training data to
cover a variety of acoustic conditions and microphone array layouts. One can
leverage acoustic simulators to inexpensively generate labeled training data.
However, models trained on synthetic data tend to perform poorly with
real-world recordings due to the domain mismatch. Moreover, learning for
different microphone array layouts makes the task more complicated due to the
infinite number of possible layouts. We propose to use adversarial learning
methods to close the gap between synthetic and real domains. Our novel
ensemble-discrimination method significantly improves the localization
performance without requiring any label from the real data. Furthermore, we
propose a novel explicit transformation layer to be embedded in the
localization architecture. It enables the model to be trained with data from
specific microphone array layouts while generalizing well to unseen layouts
during inference.
- Abstract(参考訳): ディープニューラルネットワークは、最近、複数の音源のローカライゼーションのタスクに有望な結果をもたらした。
しかし、さまざまな音響条件やマイクロホンアレイレイアウトをカバーするために、多くのトレーニングデータが必要です。
音響シミュレータを利用してラベル付きトレーニングデータを安価に生成することができる。
しかし、合成データに基づいて訓練されたモデルは、ドメインミスマッチのため、現実世界の録音では性能が良くない傾向にある。
さらに、異なるマイクロホンアレイレイアウトの学習は、無限個の可能なレイアウトのため、タスクをより複雑にする。
本稿では,合成領域と実領域のギャップを埋めるための逆学習手法を提案する。
本手法は,実データからのラベルを必要とせず,ローカライズ性能を大幅に向上させる。
さらに,ローカライゼーションアーキテクチャに組み込むための新規な明示的変換層を提案する。
これにより、特定のマイクロフォンアレイレイアウトのデータでモデルをトレーニングし、推論中に見つからないレイアウトに最適化することができる。
関連論文リスト
- Radio Foundation Models: Pre-training Transformers for 5G-based Indoor Localization [3.2805385616712677]
本稿では,高価な機器を使わずに5Gチャネル計測において,一般変圧器(TF)ニューラルネットワークを事前学習する自己教師型学習フレームワークを提案する。
そこで本研究では,入力情報をランダムにマスクしてドロップして再構築する手法を提案する。
FPベースのローカライゼーションを可能にする伝搬環境の時間的パターンと情報を暗黙的に学習する。
論文 参考訳(メタデータ) (2024-10-01T12:03:32Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Metric-based multimodal meta-learning for human movement identification
via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。
我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。
本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文 参考訳(メタデータ) (2021-11-15T18:46:14Z) - Learning Signal-Agnostic Manifolds of Neural Fields [50.066449953522685]
ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
論文 参考訳(メタデータ) (2021-11-11T18:57:40Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Ensemble of Discriminators for Domain Adaptation in Multiple Sound
Source 2D Localization [7.564344795030588]
本稿では,複数音源の局所化のための領域適応手法の精度を向上させる識別器のアンサンブルを提案する。
このようなデータセットの記録とラベリングは、特にさまざまな音響条件をカバーするために十分な多様性を必要とするため、非常にコストがかかる。
論文 参考訳(メタデータ) (2020-12-10T09:17:29Z) - Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文 参考訳(メタデータ) (2020-10-22T17:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。