論文の概要: A Theory of Unsupervised Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.07926v1
- Date: Fri, 9 Jun 2023 08:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:34:14.245021
- Title: A Theory of Unsupervised Speech Recognition
- Title(参考訳): 教師なし音声認識の一理論
- Authors: Liming Wang, Mark Hasegawa-Johnson and Chang D. Yoo
- Abstract要約: 教師なし音声認識(英語: Unsupervised speech Recognition, ASR-U)は、音声のみの音声とテキストのみのコーパスから自動音声認識システムを学習する問題である。
本稿では,ランダム行列理論とニューラル・タンジェント・カーネルの理論に基づいて,ASR-U系の特性を研究するための一般的な理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 60.12287608968879
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised speech recognition (ASR-U) is the problem of learning automatic
speech recognition (ASR) systems from unpaired speech-only and text-only
corpora. While various algorithms exist to solve this problem, a theoretical
framework is missing from studying their properties and addressing such issues
as sensitivity to hyperparameters and training instability. In this paper, we
proposed a general theoretical framework to study the properties of ASR-U
systems based on random matrix theory and the theory of neural tangent kernels.
Such a framework allows us to prove various learnability conditions and sample
complexity bounds of ASR-U. Extensive ASR-U experiments on synthetic languages
with three classes of transition graphs provide strong empirical evidence for
our theory (code available at cactuswiththoughts/UnsupASRTheory.git).
- Abstract(参考訳): 教師なし音声認識(unsupervised speech recognition, asr-u)は、非ペアリング音声認識とテキストのみコーパスから自動音声認識(asr)システムを学習する問題である。
この問題を解決するために様々なアルゴリズムが存在するが、その性質の研究やハイパーパラメータへの感度やトレーニングの不安定性といった問題に対処するための理論的枠組みが欠落している。
本稿では、ランダム行列理論と神経接核の理論に基づくasr-u系の性質を研究するための一般的な理論的枠組みを提案する。
このようなフレームワークにより、ASR-Uの様々な学習可能性条件とサンプル複雑性境界を証明できる。
3種類の遷移グラフを持つ合成言語に関する広範囲なasr-u実験は、我々の理論(cactuswiththoughts/unsupasrtheory.gitで利用可能なコード)に強い実証的証拠を与える。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Architecture of a Cortex Inspired Hierarchical Event Recaller [0.0]
本稿では、複雑なパターンの教師なし連続文脈依存学習に焦点を当てた機械学習(ML)に対する新しいアプローチを提案する。
複雑な時間系列を同定し、予測できる合成構造を定義し、実験的に検証する。
概念実証として, 提案システムでは, 事前知識を伴わずに, 人間の発話のような極めて複雑な時系列を学習し, 識別し, 予測できることが示されている。
論文 参考訳(メタデータ) (2024-05-03T09:36:16Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Learnability with PAC Semantics for Multi-agent Beliefs [38.88111785113001]
推論と帰納の緊張は、おそらく哲学、認知、人工知能といった分野において最も根本的な問題である。
Valiant氏は、学習の課題は推論と統合されるべきである、と認識した。
古典的な包含よりも弱いが、クエリに応答する強力なモデル理論のフレームワークを可能にする。
論文 参考訳(メタデータ) (2023-06-08T18:22:46Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - SAT-Based PAC Learning of Description Logic Concepts [18.851061569487616]
本稿では,記述の存在下で論理概念を学習するためのスキームとして有界フィッティングを提案する。
本稿では,SATソルバをベースとした記述論理 $mathcalELHr$ のバウンドフィッティングを実装したシステム SPELL を提案し,その性能を最先端の学習者と比較する。
論文 参考訳(メタデータ) (2023-05-15T10:20:31Z) - A Parameterized Theory of PAC Learning [19.686465068713467]
おそらく略正(PAC)学習は、サンプル複雑性理論の中核的な概念である。
我々は、パラメータ化複雑性の要素を組み込んだ最近のPAC学習結果に新たな光を当てることができるパラメータ化PAC学習の理論を開発した。
論文 参考訳(メタデータ) (2023-04-27T09:39:30Z) - Non-Axiomatic Term Logic: A Computational Theory of Cognitive Symbolic
Reasoning [3.344997561878685]
非軸性項論理(非軸性項論理、Non-Axiomatic Term Logic、NATL)は、人工知能における人間のような記号的推論の理論的計算フレームワークである。
NATLは、アリストテレスの項論理から着想を得た離散構文体系と、分散表現の現代的な考え方に基づく連続意味体系を結合する。
論文 参考訳(メタデータ) (2022-10-12T15:31:35Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。