論文の概要: Biomimetic Frontend for Differentiable Audio Processing
- arxiv url: http://arxiv.org/abs/2409.08997v1
- Date: Fri, 13 Sep 2024 17:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 15:40:23.558601
- Title: Biomimetic Frontend for Differentiable Audio Processing
- Title(参考訳): バイオミメティック・フロントエンドによるオーディオ処理
- Authors: Ruolan Leslie Famularo, Dmitry N. Zotkin, Shihab A. Shamma, Ramani Duraiswami,
- Abstract要約: 従来の説明可能な信号処理アプローチとディープラーニングフレームワークを組み合わせられるように、人間の聴覚の古典的なモデルを構築し、それを識別可能にする。
これにより、控えめな量のデータで簡単にトレーニングできる表現的で説明可能なモデルにたどり着くことができます。
その結果, 学習データが少ない場合でも, 計算効率やロバスト性において, 識別可能なモデルがブラックボックスアプローチを超越していることが判明した。
- 参考スコア(独自算出の注目度): 5.13105998753022
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While models in audio and speech processing are becoming deeper and more end-to-end, they as a consequence need expensive training on large data, and are often brittle. We build on a classical model of human hearing and make it differentiable, so that we can combine traditional explainable biomimetic signal processing approaches with deep-learning frameworks. This allows us to arrive at an expressive and explainable model that is easily trained on modest amounts of data. We apply this model to audio processing tasks, including classification and enhancement. Results show that our differentiable model surpasses black-box approaches in terms of computational efficiency and robustness, even with little training data. We also discuss other potential applications.
- Abstract(参考訳): 音声および音声処理のモデルは、より深く、よりエンドツーエンドになってきているが、結果として、大規模なデータに対する高価なトレーニングを必要とし、しばしば脆弱である。
従来の生体模倣信号処理アプローチとディープラーニングフレームワークを併用できるように,人間の聴覚の古典的なモデルを構築し,それを識別可能にする。
これにより、控えめな量のデータで簡単にトレーニングできる表現的で説明可能なモデルにたどり着くことができます。
このモデルを分類・拡張を含む音声処理タスクに適用する。
その結果, 学習データが少ない場合でも, 計算効率やロバスト性において, 識別可能なモデルがブラックボックスアプローチを超越していることが判明した。
他の潜在的な応用についても論じる。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Revisiting Pre-training in Audio-Visual Learning [6.547660539954143]
事前学習したモデルが2つの音声視覚学習シナリオに与える影響について検討する。
対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
論文 参考訳(メタデータ) (2023-02-07T15:34:14Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。