論文の概要: Scattering Transform for Auditory Attention Decoding
- arxiv url: http://arxiv.org/abs/2602.23003v1
- Date: Thu, 26 Feb 2026 13:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.704288
- Title: Scattering Transform for Auditory Attention Decoding
- Title(参考訳): 聴覚注意復号のための散乱変換
- Authors: René Pallenberg, Fabrice Katzberg, Alfred Mertins, Marco Maass,
- Abstract要約: 人口動態の変化により、今後数年で補聴器の使用が増加する。
新しい世代の補聴器によって解決される未解決の問題は、カクテルパーティーの問題である。
- 参考スコア(独自算出の注目度): 2.6059034986609015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of hearing aids will increase in the coming years due to demographic change. One open problem that remains to be solved by a new generation of hearing aids is the cocktail party problem. A possible solution is electroencephalography-based auditory attention decoding. This has been the subject of several studies in recent years, which have in common that they use the same preprocessing methods in most cases. In this work, in order to achieve an advantage, the use of a scattering transform is proposed as an alternative to these preprocessing methods. The two-layer scattering transform is compared with a regular filterbank, the synchrosqueezing short-time Fourier transform and the common preprocessing. To demonstrate the performance, the known and the proposed preprocessing methods are compared for different classification tasks on two widely used datasets, provided by the KU Leuven (KUL) and the Technical University of Denmark (DTU). Both established and new neural-network-based models, CNNs, LSTMs, and recent Transformer/graph-based models are used for classification. Various evaluation strategies were compared, with a focus on the task of classifying speakers who are unknown from the training. We show that the two-layer scattering transform can significantly improve the performance for subject-related conditions, especially on the KUL dataset. However, on the DTU dataset, this only applies to some of the models, or when larger amounts of training data are provided, as in 10-fold cross-validation. This suggests that the scattering transform is capable of extracting additional relevant information.
- Abstract(参考訳): 人口動態の変化により、今後数年で補聴器の使用が増加する。
新しい世代の補聴器によって解決される未解決の問題は、カクテルパーティーの問題である。
考えられる解決策は脳波に基づく聴覚注意復号法である。
これは近年のいくつかの研究の主題であり、ほとんどのケースで同じ前処理法を使っていることが共通している。
そこで本研究では,これらのプリプロセッシング手法の代替として,散乱変換を用いる方法を提案する。
二層散乱変換は、正規フィルタバンク、同期短時間フーリエ変換、共通前処理と比較される。
この性能を示すために、KU Leuven(KUL)とデンマーク工科大学(DTU)が提供する2つの広く使われているデータセットの分類タスクについて、既知の前処理手法と提案した前処理手法を比較した。
確立された新しいニューラルネットワークベースのモデル、CNN、LSTM、最新のTransformer/graphベースのモデルの両方が分類に使用されている。
学習から未知の話者を分類する作業に焦点をあてて,様々な評価戦略を比較した。
この2層散乱変換は,特にKULデータセットにおいて,被験者関連条件の性能を著しく向上させることができることを示す。
しかし、DTUデータセットでは、これは一部のモデル、または10倍のクロスバリデーションのような大量のトレーニングデータが提供される場合にのみ適用される。
このことは、散乱変換が追加の関連情報を抽出することができることを示唆している。
関連論文リスト
- Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。
我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。
さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文 参考訳(メタデータ) (2024-05-23T11:08:35Z) - Latent-based Diffusion Model for Long-tailed Recognition [10.410057703866899]
長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
論文 参考訳(メタデータ) (2024-04-06T06:15:07Z) - Informative regularization for a multi-layer perceptron RR Lyrae
classifier under data shift [3.303002683812084]
本稿では,情報正規化とアドホックなトレーニング手法に基づくスケーラブルで容易に適応可能なアプローチを提案し,シフト問題を緩和する。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。
論文 参考訳(メタデータ) (2023-03-12T02:49:19Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - DBN-Mix: Training Dual Branch Network Using Bilateral Mixup Augmentation
for Long-Tailed Visual Recognition [7.94190631530826]
累積学習を必要とせず,DBNの性能を向上させるための簡易かつ効果的な手法を開発した。
提案したDBNアーキテクチャの多数派に対する偏りを緩和するクラス条件温度スケーリングを提案する。
論文 参考訳(メタデータ) (2022-07-05T17:01:27Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。