論文の概要: Plug-and-Play Multilingual Few-shot Spoken Words Recognition
- arxiv url: http://arxiv.org/abs/2305.03058v1
- Date: Wed, 3 May 2023 18:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:35:48.642655
- Title: Plug-and-Play Multilingual Few-shot Spoken Words Recognition
- Title(参考訳): プラグアンドプレイ多言語音声音声認識
- Authors: Aaqib Saeed and Vasileios Tsouvalas
- Abstract要約: マルチ言語・プラグイン・アンド・プレイ型キーワードスポッティングシステムであるPLiXを提案する。
私たちの数秒のディープモデルは、20言語にまたがる数百万の1秒のオーディオクリップで学習されています。
PLiX は,1つのサポート例に限らず,新規な音声単語に一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 3.591566487849146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As technology advances and digital devices become prevalent, seamless
human-machine communication is increasingly gaining significance. The growing
adoption of mobile, wearable, and other Internet of Things (IoT) devices has
changed how we interact with these smart devices, making accurate spoken words
recognition a crucial component for effective interaction. However, building
robust spoken words detection system that can handle novel keywords remains
challenging, especially for low-resource languages with limited training data.
Here, we propose PLiX, a multilingual and plug-and-play keyword spotting system
that leverages few-shot learning to harness massive real-world data and enable
the recognition of unseen spoken words at test-time. Our few-shot deep models
are learned with millions of one-second audio clips across 20 languages,
achieving state-of-the-art performance while being highly efficient. Extensive
evaluations show that PLiX can generalize to novel spoken words given as few as
just one support example and performs well on unseen languages out of the box.
We release models and inference code to serve as a foundation for future
research and voice-enabled user interface development for emerging devices.
- Abstract(参考訳): 技術の進歩とデジタルデバイスの普及に伴い、シームレスな人間と機械のコミュニケーションがますます重要になっている。
モバイル、ウェアラブル、その他のIoT(Internet of Things)デバイスの普及は、これらのスマートデバイスとのインタラクション方法を変え、正確な音声認識を効果的なインタラクションの重要なコンポーネントにしました。
しかし、新しいキーワードを処理できる頑健な音声単語検出システムの構築は、特にトレーニングデータに制限のある低リソース言語では難しい。
本稿では,多言語・プラグ・アンド・プレイのキーワードスポッティングシステムplixを提案する。このシステムでは,実世界の膨大なデータを活用して,テスト時に未認識の単語を認識できる。
20の言語で何百万もの1秒オーディオクリップを学習し、高い効率を保ちながら最先端のパフォーマンスを実現しています。
広範な評価から、plixは1つのサポート例しか与えられていない新しい話し言葉に一般化でき、すぐに見えない言語でうまく機能することを示している。
我々は、次世代デバイスのための将来の研究と音声対応ユーザーインタフェース開発の基礎となるモデルと推論コードをリリースする。
関連論文リスト
- A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition [0.0]
本研究の目的は,イラン手話語をトランスフォーマーなどの最新のディープラーニングツールの助けを借りて認識することである。
使用されるデータセットには、大学などの学術環境で頻繁に使用されるイラン手話101語が含まれている。
論文 参考訳(メタデータ) (2024-06-27T06:54:25Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Real-time low-resource phoneme recognition on edge devices [0.0]
本稿では,音声認識のためのモデルの作成とトレーニングについて述べる。
トレーニングモデルが任意の言語を認識し、携帯電話や車載ディスプレイなどのエッジデバイスにデプロイすることで、高速なリアルタイム音声認識を可能にする。
論文 参考訳(メタデータ) (2021-03-25T17:34:59Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。