論文の概要: Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions
- arxiv url: http://arxiv.org/abs/2105.00335v1
- Date: Sat, 1 May 2021 19:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:37:22.149083
- Title: Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions
- Title(参考訳): オーディオトランスフォーマー:大規模なオーディオ理解のためのトランスフォーマーアーキテクチャ。
Adieu Convolutions
- Authors: Prateek Verma and Jonathan Berger
- Abstract要約: 畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
私達のモデルは最先端の結果を作り出すためにconvolutionalモデルより優秀です。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
- 参考スコア(独自算出の注目度): 6.370905925442655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past two decades, CNN architectures have produced compelling models
of sound perception and cognition, learning hierarchical organizations of
features. Analogous to successes in computer vision, audio feature
classification can be optimized for a particular task of interest, over a wide
variety of datasets and labels. In fact similar architectures designed for
image understanding have proven effective for acoustic scene analysis. Here we
propose applying Transformer based architectures without convolutional layers
to raw audio signals. On a standard dataset of Free Sound 50K,comprising of 200
categories, our model outperforms convolutional models to produce state of the
art results. This is significant as unlike in natural language processing and
computer vision, we do not perform unsupervised pre-training for outperforming
convolutional architectures. On the same training set, with respect mean
aver-age precision benchmarks, we show a significant improvement. We further
improve the performance of Transformer architectures by using techniques such
as pooling inspired from convolutional net-work designed in the past few years.
In addition, we also show how multi-rate signal processing ideas inspired from
wavelets, can be applied to the Transformer embeddings to improve the results.
We also show how our models learns a non-linear non constant band-width
filter-bank, which shows an adaptable time frequency front end representation
for the task of audio understanding, different from other tasks e.g. pitch
estimation.
- Abstract(参考訳): 過去20年にわたり、cnnアーキテクチャは音の知覚と認知の説得力のあるモデルを生み出し、機能の階層的な組織を学習してきた。
コンピュータビジョンの成功と類似して、オーディオ特徴分類は、様々なデータセットやラベルに対して、特定の興味のあるタスクに最適化することができる。
実際、画像理解のために設計された同様のアーキテクチャは音響シーン分析に有効であることが証明されている。
本稿では,畳み込み層を伴わない変圧器ベースのアーキテクチャを生音声信号に適用する。
200のカテゴリからなるフリーサウンド50kの標準データセットでは、我々のモデルは畳み込みモデルよりも優れており、結果の状態が得られます。
自然言語処理やコンピュータビジョンとは異なり、私たちは畳み込みアーキテクチャを上回っても教師なしの事前トレーニングは行いません。
同じトレーニングセットでは、平均平均年齢精度ベンチマークが大幅に改善しています。
ここ数年で設計された畳み込みネットワークにインスパイアされたプールなどの技術を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
さらに、ウェーブレットにインスパイアされたマルチレート信号処理のアイデアをTransformerの埋め込みに適用して結果を改善する方法を示す。
また,本モデルでは,非非線形帯域幅フィルタバンクを学習し,音声理解のタスクに対して適応可能な時間周波数フロントエンド表現を示す。
ピッチ推定。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Content Adaptive Front End For Audio Signal Processing [2.8935588665357077]
音声信号処理のための学習可能なコンテンツ適応フロントエンドを提案する。
我々は、各音声信号を畳み込みフィルタのバンクに通し、それぞれが固定次元ベクトルを与える。
論文 参考訳(メタデータ) (2023-03-18T16:09:10Z) - Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers [6.002503434201551]
大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T08:39:12Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - A Language Model With Million Sample Context For Raw Audio Using
Transformer Architectures [2.8935588665357077]
本研究では,大規模な文脈で音声波形をモデル化できる自動回帰アーキテクチャを提案する。
我々の作業は、CNNフロントエンドによる潜伏表現を学習し、Transformerエンコーダを使用してこれらの表現に対する依存を学習することで、時間依存の学習に適応する。
我々は、Wavenet、SaSHMI、Sample-RNNといった他のアプローチと比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-16T16:57:43Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - Efficient Training of Audio Transformers with Patchout [7.073210405344709]
音声スペクトログラム上での変換器の最適化と正規化を行う新しい手法を提案する。
提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-11T08:07:50Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。