論文の概要: C-SL: Contrastive Sound Localization with Inertial-Acoustic Sensors
- arxiv url: http://arxiv.org/abs/2006.05071v1
- Date: Tue, 9 Jun 2020 06:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:57:33.698035
- Title: C-SL: Contrastive Sound Localization with Inertial-Acoustic Sensors
- Title(参考訳): C-SL:慣性音響センサを用いたコントラスト音像定位
- Authors: Majid Mirbagheri, Bardia Doosti
- Abstract要約: 任意の幾何形状の移動慣性音響センサアレイを用いたコントラスト音像定位(C-SL)を導入する。
C-SLは、音響測定から、自己教師された方法でアレイ中心の方向へのマッピングを学習する。
我々は、C-SLが提供する緩やかな校正プロセスが、真のパーソナライズされた補聴器アプリケーションへの道を開くと信じている。
- 参考スコア(独自算出の注目度): 5.101801159418222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human brain employs perceptual information about the head and eye movements
to update the spatial relationship between the individual and the surrounding
environment. Based on this cognitive process known as spatial updating, we
introduce contrastive sound localization (C-SL) with mobile inertial-acoustic
sensor arrays of arbitrary geometry. C-SL uses unlabeled multi-channel audio
recordings and inertial measurement unit (IMU) readings collected during free
rotational movements of the array to learn mappings from acoustical
measurements to an array-centered direction-of-arrival (DOA) in a
self-supervised manner. Contrary to conventional DOA estimation methods that
require the knowledge of either the array geometry or source locations in the
calibration stage, C-SL is agnostic to both, and can be trained on data
collected in minimally constrained settings. To achieve this capability, our
proposed method utilizes a customized contrastive loss measuring the spatial
contrast between source locations predicted for disjoint segments of the input
to jointly update estimated DOAs and the acoustic-spatial mapping in linear
time. We provide quantitative and qualitative evaluations of C-SL comparing its
performance with baseline DOA estimation methods in a wide range of conditions.
We believe the relaxed calibration process offered by C-SL paves the way toward
truly personalized augmented hearing applications.
- Abstract(参考訳): 人間の脳は、頭と眼の動きに関する知覚情報を用いて、個人と周囲の環境の間の空間的関係を更新する。
空間更新として知られるこの認知過程に基づき,任意の形状の移動慣性音響センサアレイを用いたコントラスト音像定位 (c-sl) を導入する。
C-SLは、アレイの自由回転運動中に収集されたラベルなしのマルチチャンネルオーディオ記録と慣性測定ユニット(IMU)を用いて、音響測定からアレイ中心の方向方向(DOA)へのマッピングを自己監督的に学習する。
キャリブレーション段階における配列幾何学またはソース位置の知識を必要とする従来のDOA推定手法とは対照的に、C-SLは双方に非依存であり、最小限の制約で収集されたデータに基づいて訓練することができる。
提案手法では,入力の非結合セグメントに対して予測される音源位置間の空間的コントラストを測定することで,推定doasと音響空間マッピングを線形時間で同時更新する。
本研究では,C-SLの性能とベースラインDOA推定法との比較を,幅広い条件下で定量的,定性的に評価する。
我々は、C-SLが提供する緩和校正プロセスが、真のパーソナライズされた補聴器アプリケーションへの道を開くと考えている。
関連論文リスト
- A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation [19.384404014248762]
バイノーラル音声強調は、聴覚装置から受信される雑音信号の音質と可聴性を改善することを目的としている。
既存の手法は、ノイズ低減(NR)と空間的手がかり(SCP)の精度と保存の妥協に悩まされることが多い。
本稿では、低周波帯域をフィルタし、残りを保ち、NRに優れた学習ベース軽量複合畳み込みネットワーク(LBCCN)を提案する。
論文 参考訳(メタデータ) (2024-09-19T03:52:50Z) - Dilated Convolution with Learnable Spacings [1.8130068086063336]
この論文は、Dilated Convolution with Learnable Spacings (DCLS)法を提示し、評価する。
コンピュータビジョン、音声、音声処理の分野における様々な教師あり学習実験を通じて、DCLS法は、標準および高度な畳み込み技術よりも優れていることを証明した。
論文 参考訳(メタデータ) (2024-08-10T12:12:39Z) - Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Unsupervised Acoustic Scene Mapping Based on Acoustic Features and
Dimensionality Reduction [18.641610823584433]
データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。
本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
論文 参考訳(メタデータ) (2023-01-01T17:46:09Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Learning Where to Learn in Cross-View Self-Supervised Learning [54.14989750044489]
自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。
現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。
本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:02:42Z) - Diarisation using location tracking with agglomerative clustering [42.13772744221499]
本稿では,Agglomerative Hierarchical Clustering (AHC)ダイアリゼーションフレームワークにおける話者の動きを明示的にモデル化する。
実験により、提案手法は、Microsoftリッチミーティングの書き起こしタスクを改善することができることが示された。
論文 参考訳(メタデータ) (2021-09-22T08:54:10Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。