論文の概要: Position tracking of a varying number of sound sources with sliding
permutation invariant training
- arxiv url: http://arxiv.org/abs/2210.14536v2
- Date: Mon, 5 Jun 2023 11:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 04:14:32.590528
- Title: Position tracking of a varying number of sound sources with sliding
permutation invariant training
- Title(参考訳): スライディング置換不変トレーニングによる各種音源の位置追跡
- Authors: David Diaz-Guerra, Archontis Politis and Tuomas Virtanen
- Abstract要約: 深層学習音源定位モデルのための新しいトレーニング戦略を提案する。
これは推定位置と基準位置の最適関係の平均2乗誤差に基づいている。
フレームワイドのローカライズ精度を損なうことなく、アイデンティティスイッチを最小化する。
- 参考スコア(独自算出の注目度): 19.873949136858354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent data- and learning-based sound source localization (SSL) methods have
shown strong performance in challenging acoustic scenarios. However, little
work has been done on adapting such methods to track consistently multiple
sources appearing and disappearing, as would occur in reality. In this paper,
we present a new training strategy for deep learning SSL models with a
straightforward implementation based on the mean squared error of the optimal
association between estimated and reference positions in the preceding time
frames. It optimizes the desired properties of a tracking system: handling a
time-varying number of sources and ordering localization estimates according to
their trajectories, minimizing identity switches (IDSs). Evaluation on
simulated data of multiple reverberant moving sources and on two model
architectures proves its effectiveness on reducing identity switches without
compromising frame-wise localization accuracy.
- Abstract(参考訳): 近年,データおよび学習に基づく音源定位法 (SSL) は,難解な音響シナリオにおいて高い性能を示した。
しかし、このような手法を適用して、実際に起こるような、連続して現れる複数のソースを追跡できるような作業はほとんど行われていない。
本稿では,前回の時間フレームにおける推定位置と参照位置の最適関係の平均2乗誤差に基づいて,簡単な実装による深層学習型SSLモデルのトレーニング戦略を提案する。
トラッキングシステムの望ましい特性を最適化する: 時間変化したソースの処理と、その軌跡に応じて位置推定を順序付けし、IDS(IDS)を最小化する。
複数の残響移動源と2つのモデルアーキテクチャのシミュレーションデータの評価は、フレームワイドのローカライゼーション精度を損なうことなく、アイデンティティスイッチの低減に有効であることを示す。
関連論文リスト
- SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。
トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文 参考訳(メタデータ) (2024-11-20T10:23:21Z) - Step-wise Distribution Alignment Guided Style Prompt Tuning for Source-free Cross-domain Few-shot Learning [53.60934432718044]
クロスドメインの少数ショット学習手法は、アクセス不能なソースデータとトレーニング戦略により、大規模事前学習モデルの課題に直面している。
本稿では,ステップワイド配向ガイド型プロンプトチューニング(StepSPT)を紹介する。
StepSPTは予測分布最適化を通じて暗黙的にドメインギャップを狭める。
論文 参考訳(メタデータ) (2024-11-15T09:34:07Z) - Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - Informative regularization for a multi-layer perceptron RR Lyrae
classifier under data shift [3.303002683812084]
本稿では,情報正規化とアドホックなトレーニング手法に基づくスケーラブルで容易に適応可能なアプローチを提案し,シフト問題を緩和する。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。
論文 参考訳(メタデータ) (2023-03-12T02:49:19Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。