論文の概要: EfficientNet-Absolute Zero for Continuous Speech Keyword Spotting
- arxiv url: http://arxiv.org/abs/2012.15695v1
- Date: Thu, 31 Dec 2020 16:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:01:42.713202
- Title: EfficientNet-Absolute Zero for Continuous Speech Keyword Spotting
- Title(参考訳): efficientnet-absolute zeroによる連続音声キーワードスポッティング
- Authors: Amir Mohammad Rostami, Ali Karimi, Mohammad Ali Akhaee
- Abstract要約: football keyword dataset (fkd) はペルシア語の新しいキーワードスポッティングデータセットである。
このデータセットは18のクラスに約31000のサンプルを含んでいる。
efficientnet-a0とresnetモデルは、このデータセット上の他のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 7.313613282363873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Keyword spotting is a process of finding some specific words or phrases in
recorded speeches by computers. Deep neural network algorithms, as a powerful
engine, can handle this problem if they are trained over an appropriate
dataset. To this end, the football keyword dataset (FKD), as a new keyword
spotting dataset in Persian, is collected with crowdsourcing. This dataset
contains nearly 31000 samples in 18 classes. The continuous speech synthesis
method proposed to made FKD usable in the practical application which works
with continuous speeches. Besides, we proposed a lightweight architecture
called EfficientNet-A0 (absolute zero) by applying the compound scaling method
on EfficientNet-B0 for keyword spotting task. Finally, the proposed
architecture is evaluated with various models. It is realized that
EfficientNet-A0 and Resnet models outperform other models on this dataset.
- Abstract(参考訳): キーワードスポッティング(英: keyword spotting)は、コンピュータが録音した音声から特定の単語やフレーズを見つけるプロセスである。
強力なエンジンであるディープニューラルネットワークアルゴリズムは、適切なデータセット上でトレーニングされた場合、この問題に対処することができる。
この目的のために、ペルシャ語の新しいキーワードスポッティングデータセットであるフットボールキーワードデータセット(FKD)は、クラウドソーシングによって収集される。
このデータセットは18のクラスに31000近いサンプルを含んでいる。
連続音声合成法を用いて,fkdを連続音声と併用する実用的な応用法を提案する。
さらに,キーワードスポッティングタスクに対して,EfficientNet-B0に複合スケーリング手法を適用し,EfficientNet-A0(絶対零)という軽量アーキテクチャを提案する。
最後に,提案アーキテクチャを様々なモデルを用いて評価する。
efficientnet-a0とresnetモデルは、このデータセット上の他のモデルよりも優れています。
関連論文リスト
- Query-by-Example Keyword Spotting Using Spectral-Temporal Graph Attentive Pooling and Multi-Task Learning [11.182456667123835]
本稿では,スペクトル時間減衰グラフプーリングとマルチタスク学習を利用したQbyE (Query-by-Example) KWSシステムを提案する。
本フレームワークは,QbyE KWSタスクに対する話者不変および言語不変の埋め込みを効果的に学習することを目的としている。
論文 参考訳(メタデータ) (2024-08-27T03:44:57Z) - Improving Small Footprint Few-shot Keyword Spotting with Supervision on
Auxiliary Data [19.075820340282934]
本稿では,音声データの収集が容易でラベルなしの読み出しを補助的情報源として利用するフレームワークを提案する。
次に、モデルがドメイン外補助データから表現力を向上するのに役立つマルチタスク学習を採用する。
論文 参考訳(メタデータ) (2023-08-31T07:29:42Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - DORIC : Domain Robust Fine-Tuning for Open Intent Clustering through
Dependency Parsing [14.709084509818474]
DSTC11-Track2は、ゼロショット、クロスドメイン、インテントセットインジェクションのためのベンチマークを提供することを目的としている。
複数ドメインの対話データセットを利用して言語モデルを微調整し,Verb-Objectペアの抽出を提案する。
提案手法は精度スコアにおいて3位となり,ベースラインモデルよりも精度が向上し,相互情報(NMI)スコアが正常化した。
論文 参考訳(メタデータ) (2023-03-17T08:12:36Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Model Composition: Can Multiple Neural Networks Be Combined into a
Single Network Using Only Unlabeled Data? [6.0945220518329855]
本稿では,ラベルなしデータを用いた複数のトレーニングニューラルネットワークの組み合わせについて検討する。
提案手法は, ラベルのないデータから収集した疑似ラベルの生成, フィルタリング, 集約を利用する。
本手法は任意のアーキテクチャとカテゴリを持つ任意の入力モデルの使用をサポートする。
論文 参考訳(メタデータ) (2021-10-20T04:17:25Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。