論文の概要: Keyword Transformer: A Self-Attention Model for Keyword Spotting
- arxiv url: http://arxiv.org/abs/2104.00769v1
- Date: Thu, 1 Apr 2021 21:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:01:07.710067
- Title: Keyword Transformer: A Self-Attention Model for Keyword Spotting
- Title(参考訳): キーワード変換:キーワードスポッティングのための自己照準モデル
- Authors: Axel Berg, Mark O'Connor, Miguel Tairum Cruz
- Abstract要約: Keywords Transformer (KWT) は、事前トレーニングや追加データなしで、複数のタスクにわたる最先端のパフォーマンスを超える完全な自己意図型アーキテクチャである。
12コマンドと35コマンドのそれぞれ98.6%と97.7%の精度で、google speech commandデータセットに2つのベンチマークレコードを設定した。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has been successful across many domains,
including natural language processing, computer vision and speech recognition.
In keyword spotting, self-attention has primarily been used on top of
convolutional or recurrent encoders. We investigate a range of ways to adapt
the Transformer architecture to keyword spotting and introduce the Keyword
Transformer (KWT), a fully self-attentional architecture that exceeds
state-of-the-art performance across multiple tasks without any pre-training or
additional data. Surprisingly, this simple architecture outperforms more
complex models that mix convolutional, recurrent and attentive layers. KWT can
be used as a drop-in replacement for these models, setting two new benchmark
records on the Google Speech Commands dataset with 98.6% and 97.7% accuracy on
the 12 and 35-command tasks respectively.
- Abstract(参考訳): Transformerアーキテクチャは自然言語処理、コンピュータビジョン、音声認識など、多くの領域で成功している。
キーワードスポッティングでは、自己アテンションは主に畳み込みエンコーダや繰り返しエンコーダの上に使われてきた。
キーワードスポッティング(キーワードスポッティング)にトランスフォーマーアーキテクチャを適用する方法を調査し,事前トレーニングや追加データを必要とせず,複数のタスクにまたがる最先端性能を超える完全自己完結型アーキテクチャであるキーワードトランスフォーマ(kwt)を導入する。
驚くべきことに、このシンプルなアーキテクチャは畳み込み層、再帰層、注意層を混合するより複雑なモデルを上回る。
KWTはこれらのモデルのドロップイン代替として使用することができ、Google Speech Commandsデータセットに2つのベンチマークレコードをそれぞれ98.6%と97.7%の精度で設定する。
関連論文リスト
- Symmetric Dot-Product Attention for Efficient Training of BERT Language Models [5.838117137253223]
本稿では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。
BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークで79.36点に達し、従来の実装では78.74点だった。
論文 参考訳(メタデータ) (2024-06-10T15:24:15Z) - Hiformer: Heterogeneous Feature Interactions Learning with Transformers
for Recommender Systems [27.781785405875084]
本稿では,トランスフォーマーをベースとしたアーキテクチャに注目層を配置し,機能的インタラクションを自動的にキャプチャする手法を提案する。
我々は,Webスケールレコメンデータシステムにバニラトランスフォーマーアーキテクチャを適用する上で,2つの重要な課題を特定する。
論文 参考訳(メタデータ) (2023-11-10T05:57:57Z) - Hierarchical Transformer Model for Scientific Named Entity Recognition [0.20646127669654832]
名前付きエンティティ認識のためのシンプルで効果的なアプローチを提案する。
提案手法の主な考え方は、入力サブワードシーケンスをBERTのような事前学習された変換器で符号化することである。
科学的NERのための3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-28T12:59:06Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Contextual Transformer Networks for Visual Recognition [103.79062359677452]
視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、動的注意行列の学習を導くために入力キー間のコンテキスト情報を完全に活用する。
私たちのCoTブロックは、ResNetアーキテクチャにおける3ドル3ドルの畳み込みを簡単に置き換えられるという視点で魅力的です。
論文 参考訳(メタデータ) (2021-07-26T16:00:21Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - DSTC8-AVSD: Multimodal Semantic Transformer Network with Retrieval Style
Word Generator [61.70748716353692]
オーディオ・ビジュアル・シーン・アウェア・ダイアログ(AVSD)は、あるシーン、ビデオ、オーディオ、ダイアログの前のターン履歴で質問に対する応答を生成するタスクである。
このタスクの既存のシステムは、エンコーダ-デコーダフレームワークを備えたトランスフォーマーまたはリカレントニューラルネットワークベースのアーキテクチャを採用している。
本稿では,マルチモーダル・セマンティック・トランスフォーマー・ネットワークを提案し,単語の埋め込みを問合せすることで単語を生成する単語埋め込み層を備えたトランスフォーマー・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-01T07:10:08Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。