論文の概要: Position tracking of a varying number of sound sources with sliding
permutation invariant training
- arxiv url: http://arxiv.org/abs/2210.14536v1
- Date: Wed, 26 Oct 2022 07:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 16:09:24.831167
- Title: Position tracking of a varying number of sound sources with sliding
permutation invariant training
- Title(参考訳): スライディング置換不変トレーニングによる各種音源の位置追跡
- Authors: David Diaz-Guerra, Archontis Politis and Tuomas Virtanen
- Abstract要約: 深層学習音源定位モデルのための新しいトレーニング戦略を提案する。
これは推定位置と基準位置の最適関係の平均2乗誤差に基づいている。
フレームワイドのローカライズ精度を損なうことなく、アイデンティティスイッチを最小化する。
- 参考スコア(独自算出の注目度): 19.873949136858354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent data- and learning-based sound source localization (SSL) methods have
shown strong performance in challenging acoustic scenarios. However, little
work has been done on adapting such methods to track consistently multiple
sources appearing and disappearing, as would occur in reality. In this paper,
we present a new training strategy for deep learning SSL models with a
straightforward implementation based on the mean squared error of the optimal
association between estimated and reference positions in the preceding time
frames. It optimizes the desired properties of a tracking system: handling a
time-varying number of sources and ordering localization estimates according to
their trajectories, minimizing identity switches (IDSs). Evaluation on
simulated data of multiple reverberant moving sources and on two model
architectures proves its effectiveness on reducing identity switches without
compromising frame-wise localization accuracy.
- Abstract(参考訳): 近年,データおよび学習に基づく音源定位法 (SSL) は,難解な音響シナリオにおいて高い性能を示した。
しかし、このような手法を適用して、実際に起こるような、連続して現れる複数のソースを追跡できるような作業はほとんど行われていない。
本稿では,前回の時間フレームにおける推定位置と参照位置の最適関係の平均2乗誤差に基づいて,簡単な実装による深層学習型SSLモデルのトレーニング戦略を提案する。
トラッキングシステムの望ましい特性を最適化する: 時間変化したソースの処理と、その軌跡に応じて位置推定を順序付けし、IDS(IDS)を最小化する。
複数の残響移動源と2つのモデルアーキテクチャのシミュレーションデータの評価は、フレームワイドのローカライゼーション精度を損なうことなく、アイデンティティスイッチの低減に有効であることを示す。
関連論文リスト
- Informative regularization for a multi-layer perceptron RR Lyrae
classifier under data shift [3.303002683812084]
本稿では,情報正規化とアドホックなトレーニング手法に基づくスケーラブルで容易に適応可能なアプローチを提案し,シフト問題を緩和する。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。
論文 参考訳(メタデータ) (2023-03-12T02:49:19Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。