論文の概要: Introduction to speech recognition
- arxiv url: http://arxiv.org/abs/2402.01778v1
- Date: Thu, 1 Feb 2024 17:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:04:06.929102
- Title: Introduction to speech recognition
- Title(参考訳): 音声認識入門
- Authors: Gabriel Dauphin
- Abstract要約: この文書は、非常に小さなデータベースの助けを借りて、3つの単語(1、2、3)を正しく分類するシステムを実装している。
この性能を達成するために、音声モデリングの特異性、強力なコンピュータアルゴリズム、機械学習を使用する。
- 参考スコア(独自算出の注目度): 1.3506900724117183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document contains lectures and practical experimentations using Matlab
and implementing a system which is actually correctly classifying three words
(one, two and three) with the help of a very small database. To achieve this
performance, it uses speech modeling specificities, powerful computer
algorithms (dynamic time warping and Dijktra's algorithm) and machine learning
(nearest neighbor). This document introduces also some machine learning
evaluation metrics.
- Abstract(参考訳): この文書は、Matlabを用いた講義や実践実験を含むもので、非常に小さなデータベースの助けを借りて、実際に3つの単語(1、2、3)を正しく分類するシステムを実装している。
この性能を達成するために、音声モデリングの特異性、強力なコンピュータアルゴリズム(ダイナミックタイムワーピングとダイクトラのアルゴリズム)、機械学習(nearest neighbor)を用いる。
この文書では、いくつかの機械学習評価メトリクスも紹介している。
関連論文リスト
- Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - What and How of Machine Learning Transparency: Building Bespoke
Explainability Tools with Interoperable Algorithmic Components [77.87794937143511]
本稿では,データ駆動予測モデルを説明するためのハンズオントレーニング教材について紹介する。
これらのリソースは、解釈可能な表現合成、データサンプリング、説明生成の3つのコアビルディングブロックをカバーする。
論文 参考訳(メタデータ) (2022-09-08T13:33:25Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches
for Automatic Speech Recognition Systems [0.0]
この研究は、ノイズの多いオーディオのデータセットを構築する過程を、干渉による劣化したオーディオの特定のケースで提示することを目的としている。
また、このようなデータを評価に利用する分類器の初期結果を示し、認識者の学習プロセスでこのデータセットを使用することの利点を示す。
論文 参考訳(メタデータ) (2021-10-04T13:08:53Z) - Generative and reproducible benchmarks for comprehensive evaluation of
machine learning classifiers [6.605210393590192]
Diverse and GENerative ML Benchmark (DIGEN)は、機械学習アルゴリズムのベンチマークのための合成データセットの集合である。
詳細なドキュメンテーションと分析を備えたリソースはオープンソースであり、GitHubで公開されている。
論文 参考訳(メタデータ) (2021-07-14T03:58:02Z) - Classification of Documents Extracted from Images with Optical Character
Recognition Methods [0.0]
今日では機械学習が非常に一般的で、1日に何十回も使われており、おそらく無知である。
本研究では,2つの異なる機械学習手法を組み合わせた。
手書きや印刷された文書はスキャナーやデジタルカメラでデジタル化されている。
論文 参考訳(メタデータ) (2021-06-15T15:56:00Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Captum: A unified and generic model interpretability library for PyTorch [49.72749684393332]
我々は,PyTorch用の新しい,統一されたオープンソースモデル解釈可能性ライブラリを紹介する。
このライブラリには、多くの勾配と摂動に基づく属性アルゴリズムの汎用的な実装が含まれている。
分類モデルと非分類モデルの両方に使用できる。
論文 参考訳(メタデータ) (2020-09-16T18:57:57Z) - Pretrained Semantic Speech Embeddings for End-to-End Spoken Language
Understanding via Cross-Modal Teacher-Student Learning [31.7865837105092]
本研究では,事前学習した文脈埋め込みによる音響特性の処理を可能にする新しい学習手法を提案する。
我々は、エンドツーエンドの音声言語理解システムを構築するために、事前訓練された音声認識システムのエンコーダで拡張する。
論文 参考訳(メタデータ) (2020-07-03T17:43:12Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。