論文の概要: Combolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2507.21202v1
- Date: Mon, 28 Jul 2025 13:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.151693
- Title: Combolutional Neural Networks
- Title(参考訳): コンボリューショナルニューラルネットワーク
- Authors: Cameron Churchwell, Minje Kim, Paris Smaragdis,
- Abstract要約: 本稿では, 時間領域における高調波特性を抽出する, 複合層, 学習遅延IIRコムフィルタ, フューズドエンベロープ検出器を提案する。
正確な調和解析が重要である音声タスクにおいて,コンボリューション層は畳み込み層を効果的に置き換えることが判明した。
- 参考スコア(独自算出の注目度): 21.93943668751019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting appropriate inductive biases is an essential step in the design of machine learning models, especially when working with audio, where even short clips may contain millions of samples. To this end, we propose the combolutional layer: a learned-delay IIR comb filter and fused envelope detector, which extracts harmonic features in the time domain. We demonstrate the efficacy of the combolutional layer on three information retrieval tasks, evaluate its computational cost relative to other audio frontends, and provide efficient implementations for training. We find that the combolutional layer is an effective replacement for convolutional layers in audio tasks where precise harmonic analysis is important, e.g., piano transcription, speaker classification, and key detection. Additionally, the combolutional layer has several other key benefits over existing frontends, namely: low parameter count, efficient CPU inference, strictly real-valued computations, and improved interpretability.
- Abstract(参考訳): 適切な帰納バイアスを選択することは、機械学習モデルの設計において重要なステップである。
そこで本研究では,時間領域における高調波特性を抽出する,学習遅延IIRコムフィルタとフューズドエンベロープ検出器の合成層を提案する。
本稿では,3つの情報検索作業における構成層の有効性を実証し,その計算コストを他の音声フロントエンドと比較して評価し,学習の効率化を図る。
合成層は、正確な調和解析が重要である音声タスクにおいて、例えば、ピアノの書き起こし、話者分類、キー検出において、畳み込み層を効果的に置き換えることが判明した。
さらに、コンボリューショナルレイヤには、パラメータカウントの低い、効率的なCPU推論、厳密な実数値計算、解釈可能性の改善など、既存のフロントエンドに対するいくつかの重要なメリットがある。
関連論文リスト
- Automatic Input Feature Relevance via Spectral Neural Networks [0.9236074230806581]
機械学習の実践では、より効率的な数値処理のためのコンパクトデータセットを得るために、関連する入力特徴を特定するのが有用であることが多い。
本稿では,ディープニューラルネットワークにおける入力成分の相対的重要性を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:39:12Z) - Phase Synchrony Component Self-Organization in Brain Computer Interface [3.2116198597240846]
相同期情報は、機能的な脳の接続を分析し、脳の活動を特定する上で重要な役割を担っている。
本稿では、データ依存空間フィルタの適応学習を可能にする位相同期成分自己組織化の概念を提案する。
この概念に基づいて、生の脳波信号から位相同期に基づく特徴を直接抽出する、最初のディープラーニングエンドツーエンドネットワークが開発された。
論文 参考訳(メタデータ) (2023-09-21T09:42:16Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - SCAI: A Spectral data Classification framework with Adaptive Inference
for the IoT platform [0.0]
適応推論を用いたスペクトルデータ分類フレームワークを提案する。
具体的には、異なるデバイス間のコラボレーションをよりよく活用しながら、異なるサンプルに対して異なる計算を割り当てる。
我々の知る限り、この論文はIoTプラットフォーム下でのスペクトル検出のための適応推論による最適化を行うための最初の試みである。
論文 参考訳(メタデータ) (2022-06-24T09:22:52Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。