論文の概要: Large Scale Audio Understanding without Transformers/ Convolutions/
BERTs/ Mixers/ Attention/ RNNs or ....
- arxiv url: http://arxiv.org/abs/2110.03183v2
- Date: Fri, 8 Oct 2021 18:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 11:13:04.197651
- Title: Large Scale Audio Understanding without Transformers/ Convolutions/
BERTs/ Mixers/ Attention/ RNNs or ....
- Title(参考訳): 変換子/畳み込み/BERT/ミキサー/アテンション/RNNや...のない大規模オーディオ理解。
- Authors: Prateek Verma
- Abstract要約: 本稿では,従来の最先端のニューラルアーキテクチャを使わずに大規模音声理解を実現する方法を提案する。
私たちのアプローチには、コンボリューション、再発、注意、トランスフォーマー、BERTのような他のアプローチはありません。
SimCLRのアプローチに似た分類ヘッド(フィードフォワード層)は、学習された表現に基づいて訓練される。
- 参考スコア(独自算出の注目度): 4.594159253008448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a way of doing large scale audio understanding without
traditional state of the art neural architectures. Ever since the introduction
of deep learning for understanding audio signals in the past decade,
convolutional architectures have been able to achieve state of the art results
surpassing traditional hand-crafted features. In the recent past, there has
been a similar shift away from traditional convolutional and recurrent neural
networks towards purely end-to-end Transformer architectures. We, in this work,
explore an approach, based on Bag-of-Words model. Our approach does not have
any convolutions, recurrence, attention, transformers or other approaches such
as BERT. We utilize micro and macro level clustered vanilla embeddings, and use
a MLP head for classification. We only use feed-forward encoder-decoder models
to get the bottlenecks of spectral envelops, spectral patches and slices as
well as multi-resolution spectra. A classification head (a feed-forward layer),
similar to the approach in SimCLR is trained on a learned representation. Using
simple codes learned on latent representations, we show how we surpass
traditional convolutional neural network architectures, and come strikingly
close to outperforming powerful Transformer architectures. This work hopefully
would pave way for exciting advancements in the field of representation
learning without massive, end-to-end neural architectures.
- Abstract(参考訳): 本稿では,従来のニューラルアーキテクチャを使わずに大規模音声理解を行う方法を提案する。
過去10年間にオーディオ信号を理解するためのディープラーニングが導入されて以来、畳み込みアーキテクチャーは、従来の手作りの特徴を超越した成果を達成できた。
近年では、従来の畳み込みおよび再帰的なニューラルネットワークから、純粋にエンドツーエンドのトランスフォーマーアーキテクチャへと、同様のシフトが起きている。
本研究では,Bag-of-Wordsモデルに基づくアプローチについて検討する。
私たちのアプローチには、コンボリューション、再発、注意、トランスフォーマー、BERTのような他のアプローチはありません。
マイクロおよびマクロレベルのクラスタ化バニラ埋め込みを使用し,MLPヘッドを用いて分類を行った。
フィードフォワードエンコーダデコーダモデルのみを用いて、スペクトルエンベロープ、スペクトルパッチ、スライス、マルチ解像度スペクトルのボトルネックを取得する。
SimCLRのアプローチに似た分類ヘッド(フィードフォワード層)は、学習された表現に基づいて訓練される。
潜在表現で学習した単純なコードを用いることで、従来の畳み込みニューラルネットワークアーキテクチャを超越し、強力なトランスフォーマーアーキテクチャを著しく上回っていることを示す。
この研究は、大規模なエンドツーエンドのニューラルネットワークアーキテクチャを使わずに、表現学習の分野でエキサイティングな進歩をもたらすことを願っている。
関連論文リスト
- WaveletGPT: Wavelets Meet Large Language Models [1.2328446298523066]
大規模言語モデル(LLM)は、人工知能の新たな進歩の波を支えている。
本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。
我々は、テキスト、生のオーディオ、シンボリック音楽において、ほぼ2倍の速さで事前学習を行う。
論文 参考訳(メタデータ) (2024-09-04T03:17:19Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical
Image Segmentation [11.190117191084175]
本稿では,DeepLabライクな医用画像セグメンテーション用トランスフォーマであるTransDeepLabを提案する。
我々は、DeepLabv3を拡張し、ASPPモジュールをモデル化するために、シフトウィンドウを持つ階層型Swin-Transformerを利用する。
提案手法は,視覚変換器とCNNに基づく手法のアマルガメーションにおいて,現代のほとんどの作品に匹敵する,あるいは同等に動作する。
論文 参考訳(メタデータ) (2022-08-01T09:53:53Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions [6.370905925442655]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
私達のモデルは最先端の結果を作り出すためにconvolutionalモデルより優秀です。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - DeepRx MIMO: Convolutional MIMO Detection with Learned Multiplicative
Transformations [7.775752249659354]
本稿では、ResNetベースの畳み込みニューラルネットワークであるDeepRxと、いわゆるトランスフォーメーション層を組み合わせたディープラーニングベースのレシーバアーキテクチャを提案する。
我々の知る限り、これらは、完全に学習された受信機にそのような高い性能を示す最初の結果である。
論文 参考訳(メタデータ) (2020-10-30T14:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。