論文の概要: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- arxiv url: http://arxiv.org/abs/2510.09926v1
- Date: Fri, 10 Oct 2025 23:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.696089
- Title: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- Title(参考訳): 複合価値CNNを用いた位相認識深層学習
- Authors: Naman Agrawal,
- Abstract要約: 本研究では,複合価値畳み込みニューラルネットワーク(CVCNN)の音声信号処理への応用について検討する。
実数値ネットワークでは無視される相情報の保存と活用に重点を置いている。
- 参考スコア(独自算出の注目度): 0.04685925289936369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
- Abstract(参考訳): 本研究では,重畳畳み込みニューラルネットワーク(CVCNN)の音声信号処理への応用について検討し,実数値ネットワークで無視される位相情報の保存と利用に着目した。
まず,CVCNNの基本的概念として,複雑な畳み込み,プール層,ワイティンガーに基づく微分,複雑な値を持つアクティベーション関数などを提示する。
これらは、複雑なバッチ正規化や重み付け初期化スキームを含むトレーニングテクニックの重要な適応によって補われ、トレーニングダイナミクスの安定性を保証する。
実験的な評価は3段階にわたって行われる。
まず、CVCNNは標準画像データセット上でベンチマークされ、合成複素摂動下であっても、実数値CNNと競合する性能を示す。
音声信号処理に重点を置いているが、まず画像データセット上でCVCNNを評価し、ベースライン性能を確立し、オーディオタスクに適用する前にトレーニング安定性を検証する。
第2の実験では,Mel-Frequency Cepstral Coefficients (MFCC) を用いた音声分類に焦点を当てた。
CVCNNは実価値の高いMFCCで訓練され、実際のCNNよりも若干優れており、入力ワークフローのフェーズを保存することは、アーキテクチャの変更なしにフェーズを利用する際の課題を浮き彫りにしている。
最後に、第3の実験では、エッジ重み付けによる位相情報をモデル化するために、GNNを導入している。
これらの結果は、複雑な価値を持つアーキテクチャの表現能力を強調し、オーディオ処理アプリケーションにおいて、フェーズを有意義で活用可能な機能として確認する。
現在の手法では、特にカルディノイドのようなアクティベーションでは、将来的なフェーズアウェア設計の進歩は、ニューラルネットワークにおける複雑な表現の可能性を活用する上で不可欠である。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Raw Audio Classification with Cosine Convolutional Neural Network (CosCovNN) [1.0237120900821557]
本研究では,従来のCNNフィルタをCosineフィルタに置き換えたCosine Convolutional Neural Network(CosCovNN)を提案する。
CosCovNNは、同等のCNNアーキテクチャの精度を約77%のパラメータで上回っている。
その結果,コサインフィルタは生音声分類におけるCNNの効率と精度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-11-30T01:39:16Z) - Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - Hopfield-Enhanced Deep Neural Networks for Artifact-Resilient Brain
State Decoding [0.0]
そこで本研究では, ホップフィールド・ネットワークとコナール・ニューラル・ネットワーク(CNN)を併用した2段階の計算手法を提案する。
様々なレベルのデータ圧縮とノイズ強度のパフォーマンスは、我々のフレームワークがアーティファクトを効果的に軽減し、より低いノイズレベルにおいてクリーンなデータCNNと同等の精度でモデルに到達できることを示しました。
論文 参考訳(メタデータ) (2023-11-06T15:08:13Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。