論文の概要: Diverse Neural Audio Embeddings -- Bringing Features back !
- arxiv url: http://arxiv.org/abs/2309.08751v1
- Date: Fri, 15 Sep 2023 20:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:33:33.112484
- Title: Diverse Neural Audio Embeddings -- Bringing Features back !
- Title(参考訳): 多様なニューラルオーディオ埋め込み -- 機能を取り戻す!
- Authors: Prateek Verma
- Abstract要約: 様々な特徴表現を用いて音声の埋め込みを学習する。
我々は、ピッチ、音色、ニューラル表現などの多様なオーディオ特性に対する頑健な個別の埋め込みと、エンドツーエンドアーキテクチャを通してそれを学習する。
- 参考スコア(独自算出の注目度): 1.2328446298523066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of modern AI architectures, a shift has happened towards
end-to-end architectures. This pivot has led to neural architectures being
trained without domain-specific biases/knowledge, optimized according to the
task. We in this paper, learn audio embeddings via diverse feature
representations, in this case, domain-specific. For the case of audio
classification over hundreds of categories of sound, we learn robust separate
embeddings for diverse audio properties such as pitch, timbre, and neural
representation, along with also learning it via an end-to-end architecture. We
observe handcrafted embeddings, e.g., pitch and timbre-based, although on their
own, are not able to beat a fully end-to-end representation, yet adding these
together with end-to-end embedding helps us, significantly improve performance.
This work would pave the way to bring some domain expertise with end-to-end
models to learn robust, diverse representations, surpassing the performance of
just training end-to-end models.
- Abstract(参考訳): 現代のAIアーキテクチャの出現により、エンドツーエンドアーキテクチャへのシフトが起こった。
この方向転換によって、神経アーキテクチャは、タスクに応じて最適化されたドメイン固有のバイアス/知識なしで訓練される。
本稿では,様々な特徴表現,この場合のドメイン固有表現を用いて,音声埋め込みを学習する。
音のカテゴリー別に分類する場合、ピッチ、音色、ニューラル表現などの様々な音響特性に対して頑健な個別の埋め込みを学習するとともに、エンドツーエンドアーキテクチャを通して学習する。
例えば、ピッチや音色に基づく手作りの埋め込みは、それ自体では、完全なエンドツーエンド表現を打ち負かすことはできないが、エンドツーエンドの埋め込みと組み合わせることで、パフォーマンスが大幅に向上するのに役立つ。
この作業は、エンド・ツー・エンドのモデルにドメインの専門知識を導入して、堅牢で多様な表現を学び、エンド・ツー・エンドのモデルをトレーニングするだけのパフォーマンスを上回ります。
関連論文リスト
- Reusable Architecture Growth for Continual Stereo Matching [92.36221737921274]
我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。
RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。
また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-30T13:24:58Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - End-to-End Audio Strikes Back: Boosting Augmentations Towards An
Efficient Audio Classification Network [3.5173697454104844]
本稿では,強力な一般化能力を有する効率的なエンドツーエンドネットワークを提案する。
本手法の有効性とロバスト性を示すため,様々な音響分類セットの実験を行った。
論文 参考訳(メタデータ) (2022-04-25T07:50:45Z) - Audio representations for deep learning in sound synthesis: A review [0.0]
本稿では,ディープラーニングを用いた音声合成に応用した音声表現の概要について述べる。
また、深層学習モデルを用いた音声合成アーキテクチャの開発と評価のための最も重要な手法も提示する。
論文 参考訳(メタデータ) (2022-01-07T15:08:47Z) - Towards Explainable Convolutional Features for Music Audio Modeling [27.496731746087033]
深層畳み込みモデル上で「ブラックボックス」を開き、将来の音楽オーディオタスクを知らせる。
深層畳み込み機能は、もともとそのタスクで訓練された深層アーキテクチャから抽出されるか否かに関わらず、様々な目標タスクに対して良好に機能することを示す。
深部の特徴は手作りのウェーブレットの特徴と高い類似性を示し、深部の特徴が訓練されたモデルから抽出されるか、訓練されていないモデルから抽出されるかのどちらかである。
論文 参考訳(メタデータ) (2021-05-31T21:31:27Z) - Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions [6.370905925442655]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
私達のモデルは最先端の結果を作り出すためにconvolutionalモデルより優秀です。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。