論文の概要: PatchDSU: Uncertainty Modeling for Out of Distribution Generalization in Keyword Spotting
- arxiv url: http://arxiv.org/abs/2508.03190v1
- Date: Tue, 05 Aug 2025 07:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.853846
- Title: PatchDSU: Uncertainty Modeling for Out of Distribution Generalization in Keyword Spotting
- Title(参考訳): PatchDSU: キーワードスポッティングにおける分布一般化の非確実性モデリング
- Authors: Bronya Roni Chernyak, Yael Segal, Yosi Shrem, Joseph Keshet,
- Abstract要約: 不確実性を伴うドメインシフト(DSU)は、入力特徴統計に基づいて、各ニューラルネットワーク層の入力を強化する。
コンピュータビジョンに有効であるが、DSUを音声に適用することは、データの性質による課題を提示する。
そこで我々は,DSUを拡張したPatchDSUを提案する。
- 参考スコア(独自算出の注目度): 13.194511383281124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models excel at many tasks but rely on the assumption that training and test data follow the same distribution. This assumption often does not hold in real-world speech systems, where distribution shifts are common due to varying environments, recording conditions, and speaker diversity. The method of Domain Shifts with Uncertainty (DSU) augments the input of each neural network layer based on the input feature statistics. It addresses the problem of out-of-domain generalization by assuming feature statistics follow a multivariate Gaussian distribution and substitutes the input with sampled features from this distribution. While effective for computer vision, applying DSU to speech presents challenges due to the nature of the data. Unlike static visual data, speech is a temporal signal commonly represented by a spectrogram - the change of frequency over time. This representation cannot be treated as a simple image, and the resulting sparsity can lead to skewed feature statistics when applied to the entire input. To tackle out-of-distribution issues in keyword spotting, we propose PatchDSU, which extends DSU by splitting the input into patches and independently augmenting each patch. We evaluated PatchDSU and DSU alongside other methods on the Google Speech Commands, Librispeech, and TED-LIUM. Additionally, we evaluated performance under white Gaussian and MUSAN music noise conditions. We also explored out-of-domain generalization by analyzing model performance on datasets they were not trained on. Overall, in most cases, both PatchDSU and DSU outperform other methods. Notably, PatchDSU demonstrates more consistent improvements across the evaluated scenarios compared to other approaches.
- Abstract(参考訳): ディープラーニングモデルは多くのタスクで優れていますが、トレーニングとテストデータが同じ分布に従うという仮定に依存しています。
この仮定は、様々な環境、記録条件、話者の多様性による分散シフトが一般的である現実世界の音声システムでは、しばしば成立しない。
不確実性を伴うドメインシフト(DSU)の方法は、入力特徴統計に基づいて、各ニューラルネットワーク層の入力を増大させる。
特徴統計が多変量ガウス分布に従うことを仮定して、領域外一般化の問題に対処し、この分布からサンプリングされた特徴を入力に置き換える。
コンピュータビジョンに有効であるが、DSUを音声に適用することは、データの性質による課題を提示する。
静的視覚データとは異なり、音声は時相信号であり、時間とともに周波数が変化するスペクトログラムで表される。
この表現は単純な画像として扱うことができず、その結果の空間性は入力全体に適用した場合に歪んだ特徴統計に繋がる。
キーワードスポッティングにおけるアウト・オブ・ディストリビューション問題に対処するため,DSUを拡張したPatchDSUを提案する。
Google Speech Commands, Librispeech, TED-Liumの他の手法とともに, PatchDSUとDSUを評価した。
また,ホワイトガウシアンとMUSANの音楽雑音条件下での性能評価を行った。
また、トレーニングされていないデータセットのモデル性能を分析して、ドメイン外一般化についても検討した。
全体として、ほとんどの場合、PatchDSUとDSUはどちらも他の方法よりも優れています。
特に、PatchDSUは、他のアプローチと比較して、評価されたシナリオ全体でより一貫性のある改善を示している。
関連論文リスト
- GHOST: Gaussian Hypothesis Open-Set Technique [10.426399605773083]
大規模認識手法の評価は通常、全体的な性能に重点を置いている。
オープンセット認識(OSR)における公平性に対処し,クラスごとのパフォーマンスが劇的に変化することを示す。
Zスコア正規化をロジットに適用し、モデルの期待から逸脱する特徴量の影響を軽減する。
論文 参考訳(メタデータ) (2025-02-05T16:56:14Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - DIVERSIFY: A General Framework for Time Series Out-of-distribution
Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。
時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。
時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文 参考訳(メタデータ) (2023-08-04T12:27:11Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Tackling Instance-Dependent Label Noise with Dynamic Distribution
Calibration [18.59803726676361]
インスタンスに依存したラベルノイズは現実的だが、ラベルの破損プロセスはインスタンスに直接依存する。
これは、トレーニングの分布とテストデータの間に深刻な分布シフトを引き起こし、訓練されたモデルの一般化を損なう。
本稿では,インスタンス依存ラベル雑音を用いた学習における分布変化に対処するために,動的分布校正戦略を採用する。
論文 参考訳(メタデータ) (2022-10-11T03:50:52Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Nonlinear Distribution Regression for Remote Sensing Applications [6.664736150040092]
多くのリモートセンシングアプリケーションでは、観察から関心のある変数やパラメータを推定したい。
ニューラルネットワーク、ランダムフォレスト、ガウス過程などの標準アルゴリズムは、これら2つに関連して容易に利用可能である。
本稿では, グループ化されたデータの統計を仮定することなく, 従来の問題を解く非線形(カーネルベース)な分散回帰法を提案する。
論文 参考訳(メタデータ) (2020-12-07T22:04:43Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。