論文の概要: Attention-Free Keyword Spotting
- arxiv url: http://arxiv.org/abs/2110.07749v2
- Date: Mon, 18 Oct 2021 11:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 12:21:56.429201
- Title: Attention-Free Keyword Spotting
- Title(参考訳): 無注意キーワードスポッティング
- Authors: Mashrur M. Morshed, Ahmad Omar Ahsan
- Abstract要約: 我々は、キーワードスポッティングタスクにおけるゲート(以前は視覚タスクのトランスフォーマーの代替として示されていた)の使用について検討する。
我々は,自己注意の明確な使用を伴わずに,最先端技術に匹敵するパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Till now, attention-based models have been used with great success in the
keyword spotting problem domain. However, in light of recent advances in deep
learning, the question arises whether self-attention is truly irreplaceable for
recognizing speech keywords. We thus explore the usage of gated MLPs --
previously shown to be alternatives to transformers in vision tasks -- for the
keyword spotting task. We verify our approach on the Google Speech Commands
V2-35 dataset and show that it is possible to obtain performance comparable to
the state of the art without any apparent usage of self-attention.
- Abstract(参考訳): 現在、注意に基づくモデルはキーワードスポッティング問題領域で大きな成功を収めている。
しかし,近年の深層学習の進歩を踏まえて,自己認識が音声キーワード認識において本当に不可能かどうかが問題となっている。
そこで我々は,キーワードスポッティングタスクにおいて,視覚タスクにおけるトランスフォーマの代替品として従来示されていたゲート型mlpの使用法を検討する。
我々は,google speech command v2-35データセットに対する我々のアプローチを検証し,自己注意の明確な使用なしに,最先端技術に匹敵するパフォーマンスを得ることができることを示す。
関連論文リスト
- MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Few-Shot Stance Detection via Target-Aware Prompt Distillation [48.40269795901453]
本論文は,知識ベースや少人数の学習者を対象とした事前学習型言語モデル(PLM)の可能性に着想を得たものである。
PLMは、ターゲットに対して重要なコンテキスト情報を提供し、プロンプトを介して数発の学習を可能にする。
姿勢検出タスクにおいて,対象が重要な役割を担っていることを考慮し,目標認識プロンプトを設計し,新しい言語化手法を提案する。
論文 参考訳(メタデータ) (2022-06-27T12:04:14Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Towards noise robust trigger-word detection with contrastive learning
pre-task for fast on-boarding of new trigger-words [0.0]
ユーザの音声アシスタントとのコミュニケーションのエントリポイントとして,トリガーワード検出が重要な役割を果たす。
本研究では,検出モデルが異なる単語や雑音条件に一般化するのに役立つ事前学習タスクとして,コントラスト学習を提案する。
対照的な事前学習手法は、データ利用率の低い新しいトリガー語を事前学習する従来の分類に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-06T22:39:05Z) - Visual Keyword Spotting with Attention [82.79015266453533]
本稿では,2つのストリームを取り込み,ビデオの視覚的エンコーディング,キーワードの音声的エンコーディングを行うトランスフォーマーモデルについて検討する。
本研究では,従来の視覚的キーワードスポッティングや唇読解法よりも優れていることを示す。
我々は,手話ビデオにおいて,孤立した口づけの極端な条件下での単語の発見能力を示す。
論文 参考訳(メタデータ) (2021-10-29T17:59:04Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z) - RATT: Recurrent Attention to Transient Tasks for Continual Image
Captioning [39.015715010740486]
画像キャプションのためのLSTMに基づくモデルの連続学習を体系的に検討する。
本稿では,連続的な画像キャプションタスクにおける語彙の過渡的な性質を明確化するための注意に基づくアプローチを提案する。
以上の結果から,RATTは5つのキャプションタスクを逐次学習できると同時に,従来学習したタスクを忘れることもないことがわかった。
論文 参考訳(メタデータ) (2020-07-13T09:52:37Z) - Understanding Self-Attention of Self-Supervised Audio Transformers [74.38550595045855]
自己教師型音声変換器(SAT)は、ASRのような多くの下流音声アプリケーションで大きな成功を収めるが、その動作方法はまだ広く検討されていない。
本研究では,SATにおけるアテンションメカニズムの解析のための複数の戦略を提案する。
論文 参考訳(メタデータ) (2020-06-05T07:23:03Z) - Exploring Self-attention for Image Recognition [151.12000247183636]
画像認識における自己注意の2つの形態について考察する。
ひとつは、標準的なドット積の注意を一般化する、ペアワイズな自己注意である。
もう1つはパッチワイドな自己認識であり、畳み込みよりも厳格に強力です。
論文 参考訳(メタデータ) (2020-04-28T16:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。