論文の概要: AaPE: Aliasing-aware Patch Embedding for Self-Supervised Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2512.03637v1
- Date: Wed, 03 Dec 2025 10:17:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:16:28.552993
- Title: AaPE: Aliasing-aware Patch Embedding for Self-Supervised Audio Representation Learning
- Title(参考訳): AaPE:自己監督型音声表現学習のためのAliasing-Aware Patch Embedding
- Authors: Kohei Yamamoto, Kosuke Okusa,
- Abstract要約: エイリアス対応パッチ埋め込みは、高周波情報を保持しながらエイリアスを緩和する。
AaPEは、マスク付き教師学生による自己教師型学習にシームレスに統合される。
- 参考スコア(独自算出の注目度): 4.145240274022923
- License:
- Abstract: Transformer-based audio SSL (self-supervised learning) models often treat spectrograms as images, applying convolutional patchification with heavy temporal downsampling. This lowers the effective Nyquist frequency and introduces aliasing, while naïve low-pass filtering removes task-relevant high-frequency cues. In this study, we present Aliasing-aware Patch Embedding (AaPE), a drop-in patch stem that mitigates aliasing while preserving high-frequency information. AaPE augments standard patch tokens with features produced by a band-limited complex sinusoidal kernel using a two-sided exponential window that dynamically targets alias-prone bands. Frequency and decay parameters of the kernel are estimated from the input, enabling parallel, adaptive subband analysis whose outputs are fused with the standard patch tokens. AaPE integrates seamlessly into the masked teacher-student self-supervised learning. In addition, we combine a multi-mask strategy with a contrastive objective to enforce consistency across diverse mask patterns, stabilizing training. Pre-training on AudioSet followed by fine-tuning evaluation across diverse downstream benchmarks, which spanned categories, such as environmental sounds and other common audio domains. This approach yields state-of-the-art performance on a subset of tasks and competitive results across the remainder. Complementary linear probing evaluation mirrors this pattern, yielding clear gains on several benchmarks and strong performance elsewhere. The collective analysis of these results indicates that AaPE serves to mitigate the effects of aliasing without discarding of informative high-frequency content.
- Abstract(参考訳): トランスフォーマーベースのオーディオSSL(セルフ教師付き学習)モデルは、しばしばスペクトログラムを画像として扱う。
これにより、有効なNyquist周波数が低下し、エイリアスが発生し、低域通過フィルタリングがタスク関連高周波キューを除去する。
本研究では,Aliasing-aware Patch Embedding (AaPE)について述べる。
AaPEは、Alias-proneバンドを動的にターゲットとする2面の指数窓を使用して、バンド制限された複素正弦波カーネルによって生成された特徴を持つ標準パッチトークンを増強する。
入力からカーネルの周波数および減衰パラメータを推定し、標準パッチトークンで出力を融合した並列適応サブバンド解析を可能にする。
AaPEは、マスク付き教師学生による自己教師型学習にシームレスに統合される。
さらに,マルチマスク戦略と対照的な目的を組み合わせ,多様なマスクパターン間の一貫性を強制し,トレーニングを安定化させる。
AudioSetでの事前トレーニングに続いて、環境音やその他の一般的なオーディオドメインといったカテゴリにまたがるさまざまなダウンストリームベンチマークの微調整評価が行われた。
このアプローチはタスクのサブセットにおける最先端のパフォーマンスと、残りの部分で競合する結果をもたらす。
補完線形探索評価は、このパターンを反映し、いくつかのベンチマークで明らかな利得と、他の場所での強いパフォーマンスをもたらす。
これらの結果から,AaPEは高周波成分の除去を伴わずにエイリアス効果を緩和する作用があることが示唆された。
関連論文リスト
- DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - Learning Normal Patterns in Musical Loops [0.0]
本稿では,音楽サンプル(ループ)の音響パターンを異常検出により検出するための教師なしフレームワークを提案する。
深部特徴抽出と教師なし異常検出を組み合わせたアーキテクチャにより,これらの制約に対処する。
論文 参考訳(メタデータ) (2025-05-22T19:52:00Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Low Pass Filter for Anti-aliasing in Temporal Action Localization [15.139834271977913]
本稿では,時間的行動定位法におけるエイリアスの存在を検証する。
高周波帯域の抑制により低域通過フィルタを用いてこの問題を解決する。
実験により、TALにおける低域通過フィルタによるアンチエイリアシングは有利かつ効率的であることが示された。
論文 参考訳(メタデータ) (2021-04-23T03:57:34Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Multi-Objective Interpolation Training for Robustness to Label Noise [17.264550056296915]
標準教師付きコントラスト学習はラベル雑音の存在下で劣化することを示す。
コントラスト学習により学習したロバストな特徴表現を利用する新しいラベルノイズ検出手法を提案する。
合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2020-12-08T15:01:54Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。