論文の概要: Compressing Quaternion Convolutional Neural Networks for Audio Classification
- arxiv url: http://arxiv.org/abs/2510.21388v1
- Date: Fri, 24 Oct 2025 12:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.461516
- Title: Compressing Quaternion Convolutional Neural Networks for Audio Classification
- Title(参考訳): 音声分類のための圧縮四元畳み込みニューラルネットワーク
- Authors: Arshdeep Singh, Vinayak Abrol, Mark D. Plumbley,
- Abstract要約: 第四次畳み込みニューラルネットワーク(QCNN)は、音声分類に広く用いられている。
本研究では,QCNNの計算複雑性を抑えるため,知識蒸留(KD)とプルーニング(Pruning)について検討する。
音声分類実験により,pruning QCNNsはKDと同等あるいは優れた性能を示し,計算労力の削減を図っている。
- 参考スコア(独自算出の注目度): 25.584905224642288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional Convolutional Neural Networks (CNNs) in the real domain have been widely used for audio classification. However, their convolution operations process multi-channel inputs independently, limiting the ability to capture correlations among channels. This can lead to suboptimal feature learning, particularly for complex audio patterns such as multi-channel spectrogram representations. Quaternion Convolutional Neural Networks (QCNNs) address this limitation by employing quaternion algebra to jointly capture inter-channel dependencies, enabling more compact models with fewer learnable parameters while better exploiting the multi-dimensional nature of audio signals. However, QCNNs exhibit higher computational complexity due to the overhead of quaternion operations, resulting in increased inference latency and reduced efficiency compared to conventional CNNs, posing challenges for deployment on resource-constrained platforms. To address this challenge, this study explores knowledge distillation (KD) and pruning, to reduce the computational complexity of QCNNs while maintaining performance. Our experiments on audio classification reveal that pruning QCNNs achieves similar or superior performance compared to KD while requiring less computational effort. Compared to conventional CNNs and Transformer-based architectures, pruned QCNNs achieve competitive performance with a reduced learnable parameter count and computational complexity. On the AudioSet dataset, pruned QCNNs reduce computational cost by 50\% and parameter count by 80\%, while maintaining performance comparable to the conventional CNNs. Furthermore, pruned QCNNs generalize well across multiple audio classification benchmarks, including GTZAN for music genre recognition, ESC-50 for environmental sound classification and RAVDESS for speech emotion recognition.
- Abstract(参考訳): 実領域における従来の畳み込みニューラルネットワーク(CNN)は、音声分類に広く用いられている。
しかし、畳み込み操作は複数のチャネル入力を独立に処理し、チャネル間の相関を捉える能力を制限する。
これは、特にマルチチャネル・スペクトログラム表現のような複雑な音声パターンに対して、準最適特徴学習につながる可能性がある。
Quaternion Convolutional Neural Networks (QCNN) はこの制限に対処し、四元数代数を用いてチャネル間の依存関係を共同でキャプチャし、学習可能なパラメータが少ないよりコンパクトなモデルを可能にし、オーディオ信号の多次元的性質をうまく活用する。
しかし、QCNNは四元数演算のオーバーヘッドにより計算の複雑さが増し、従来のCNNに比べて推論遅延が増加し、効率が低下し、リソース制約のあるプラットフォームへのデプロイが困難になる。
この課題に対処するために,本研究では,QCNNの計算複雑性を低減し,性能を維持しながら,知識蒸留(KD)とプルーニング(Pruning)について検討する。
音声分類実験により,pruning QCNNsはKDと同等あるいは優れた性能を示し,計算労力の削減を図っている。
従来のCNNやTransformerベースのアーキテクチャと比較して、pruned QCNNは学習可能なパラメータ数と計算複雑性を減らして競合性能を達成する。
AudioSetデータセットでは、pruned QCNNは計算コストを50%削減し、パラメータ数を80%削減し、従来のCNNに匹敵するパフォーマンスを維持している。
さらに、音楽ジャンル認識のためのGTZAN、環境音分類のためのESC-50、音声感情認識のためのRAVDESSなど、複数の音声分類ベンチマークにおいて、プルーニングされたQCNNがよく一般化されている。
関連論文リスト
- Raw Audio Classification with Cosine Convolutional Neural Network (CosCovNN) [1.0237120900821557]
本研究では,従来のCNNフィルタをCosineフィルタに置き換えたCosine Convolutional Neural Network(CosCovNN)を提案する。
CosCovNNは、同等のCNNアーキテクチャの精度を約77%のパラメータで上回っている。
その結果,コサインフィルタは生音声分類におけるCNNの効率と精度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-11-30T01:39:16Z) - Benchmarking Quantum Convolutional Neural Networks for Classification and Data Compression Tasks [0.4379805041989628]
量子畳み込みニューラルネットワーク(QCNN)は、量子機械学習タスクの有望なモデルとして登場した。
本稿では,量子基底状態の位相を分類するハードウェア効率アンサッツ(HEA)と比較してQCNNの性能について検討する。
論文 参考訳(メタデータ) (2024-11-20T17:17:09Z) - Quantum-Trained Convolutional Neural Network for Deepfake Audio Detection [3.2927352068925444]
ディープフェイク技術は プライバシー セキュリティ 情報整合性に 課題をもたらす
本稿では,ディープフェイク音声の検出を強化するために,量子学習型畳み込みニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T20:52:10Z) - A Quantum Convolutional Neural Network Approach for Object Detection and
Classification [0.0]
QCNNの時間と精度は、異なる条件下での古典的なCNNやANNモデルと比較される。
この分析により、QCNNは、特定のアプリケーションにおける精度と効率の点で、古典的なCNNとANNのモデルより優れている可能性が示されている。
論文 参考訳(メタデータ) (2023-07-17T02:38:04Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Decentralizing Feature Extraction with Quantum Convolutional Neural
Network for Automatic Speech Recognition [101.69873988328808]
特徴抽出のための量子回路エンコーダからなる量子畳み込みニューラルネットワーク(QCNN)を構築した。
入力音声はまず、Mel-spectrogramを抽出するために量子コンピューティングサーバにアップストリームされる。
対応する畳み込み特徴は、ランダムパラメータを持つ量子回路アルゴリズムを用いて符号化される。
符号化された機能は、最終認識のためにローカルRNNモデルにダウンストリームされる。
論文 参考訳(メタデータ) (2020-10-26T03:36:01Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。