論文の概要: Content Adaptive Front End For Audio Classification
- arxiv url: http://arxiv.org/abs/2303.10446v3
- Date: Mon, 23 Dec 2024 06:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:16.167064
- Title: Content Adaptive Front End For Audio Classification
- Title(参考訳): オーディオ分類のためのコンテンツ適応型フロントエンド
- Authors: Prateek Verma, Chris Chafe,
- Abstract要約: 音声信号処理のための学習可能なコンテンツ適応フロントエンドを提案する。
我々は、各音声信号を畳み込みフィルタのバンクに通し、それぞれが固定次元ベクトルを与える。
- 参考スコア(独自算出の注目度): 1.0435741631709403
- License:
- Abstract: We propose a learnable content adaptive front end for audio signal processing. Before the modern advent of deep learning, we used fixed representation non-learnable front-ends like spectrogram or mel-spectrogram with/without neural architectures. With convolutional architectures supporting various applications such as ASR and acoustic scene understanding, a shift to a learnable front ends occurred in which both the type of basis functions and the weight were learned from scratch and optimized for the particular task of interest. With the shift to transformer-based architectures with no convolutional blocks present, a linear layer projects small waveform patches onto a small latent dimension before feeding them to a transformer architecture. In this work, we propose a way of computing a content-adaptive learnable time-frequency representation. We pass each audio signal through a bank of convolutional filters, each giving a fixed-dimensional vector. It is akin to learning a bank of finite impulse-response filterbanks and passing the input signal through the optimum filter bank depending on the content of the input signal. A content-adaptive learnable time-frequency representation may be more broadly applicable, beyond the experiments in this paper.
- Abstract(参考訳): 音声信号処理のための学習可能なコンテンツ適応フロントエンドを提案する。
ディープラーニングの現代的な出現前、私たちは、スペクトログラムやメル・スペクトログラムのような固定された学習不可能なフロントエンドをニューラルネットワークで/または不要に使用しました。
ASRや音響シーン理解などの様々な応用をサポートする畳み込みアーキテクチャでは、学習可能なフロントエンドへのシフトが発生し、ベース関数の種類とウェイトの両方がスクラッチから学習され、特定の作業に最適化される。
畳み込みブロックのないトランスフォーマーベースのアーキテクチャへの移行により、線形層は小さな波形パッチを小さな潜在次元に投影し、トランスフォーマーアーキテクチャに供給する。
本研究では,コンテンツ適応型学習可能な時間周波数表現の計算法を提案する。
我々は、各音声信号を畳み込みフィルタのバンクに通し、それぞれが固定次元ベクトルを与える。
入力信号の内容に応じて、有限インパルス応答フィルタバンクのバンクを学習し、入力信号を最適フィルタバンクに渡すのと似ている。
内容適応型学習可能な時間周波数表現は,本論文の実験を超えて,より広範に適用できる可能性がある。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Towards Signal Processing In Large Language Models [46.76681147411957]
本稿では,Large Language Model (LLM) 内で信号処理を適用するという考え方を紹介する。
古典的なフーリエ変換とフーリエ変換のような学習可能な時間周波数表現の並列性を描く。
GPTのようなアーキテクチャでは、より高速な収束を実現し、性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-10T13:51:52Z) - Neural Architectures Learning Fourier Transforms, Signal Processing and
Much More.... [1.2328446298523066]
音声信号処理アプリケーションにおいて,スクラッチからカーネルを学習する方法を示す。
ニューラルネットワークは正弦波のカーネル形状を学習するだけでなく、あらゆる種類の素晴らしい信号処理特性を発見する。
論文 参考訳(メタデータ) (2023-08-20T23:30:27Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Interpretable Acoustic Representation Learning on Breathing and Speech
Signals for COVID-19 Detection [37.01066509527848]
本稿では,新型コロナウイルス検出作業における音声信号の表現学習のアプローチについて述べる。
生音声サンプルは、コサイン変調ガウス関数としてパラメータ化される1次元畳み込みフィルタのバンクで処理される。
フィルタされた出力は、プールされ、ログ圧縮され、自己アテンションベースの関連重み付け機構で使用される。
論文 参考訳(メタデータ) (2022-06-27T15:20:51Z) - A Modulation Front-End for Music Audio Tagging [0.0]
変調フィルタバンク表現は、知覚的に健全な特徴の抽出を容易にする可能性がある。
時間変調処理ブロックを組み込んだ音声表現学習のためのエンドツーエンド学習フロントエンドであるModNetとSincModNetについて検討する。
我々は,MagnaTagATuneデータセットを用いた最新の音楽タグ付けに対するモデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-05-25T11:05:24Z) - Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions [6.370905925442655]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
私達のモデルは最先端の結果を作り出すためにconvolutionalモデルより優秀です。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。