論文の概要: A Theory of Unsupervised Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.07926v1
- Date: Fri, 9 Jun 2023 08:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:34:14.245021
- Title: A Theory of Unsupervised Speech Recognition
- Title(参考訳): 教師なし音声認識の一理論
- Authors: Liming Wang, Mark Hasegawa-Johnson and Chang D. Yoo
- Abstract要約: 教師なし音声認識(英語: Unsupervised speech Recognition, ASR-U)は、音声のみの音声とテキストのみのコーパスから自動音声認識システムを学習する問題である。
本稿では,ランダム行列理論とニューラル・タンジェント・カーネルの理論に基づいて,ASR-U系の特性を研究するための一般的な理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 60.12287608968879
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised speech recognition (ASR-U) is the problem of learning automatic
speech recognition (ASR) systems from unpaired speech-only and text-only
corpora. While various algorithms exist to solve this problem, a theoretical
framework is missing from studying their properties and addressing such issues
as sensitivity to hyperparameters and training instability. In this paper, we
proposed a general theoretical framework to study the properties of ASR-U
systems based on random matrix theory and the theory of neural tangent kernels.
Such a framework allows us to prove various learnability conditions and sample
complexity bounds of ASR-U. Extensive ASR-U experiments on synthetic languages
with three classes of transition graphs provide strong empirical evidence for
our theory (code available at cactuswiththoughts/UnsupASRTheory.git).
- Abstract(参考訳): 教師なし音声認識(unsupervised speech recognition, asr-u)は、非ペアリング音声認識とテキストのみコーパスから自動音声認識(asr)システムを学習する問題である。
この問題を解決するために様々なアルゴリズムが存在するが、その性質の研究やハイパーパラメータへの感度やトレーニングの不安定性といった問題に対処するための理論的枠組みが欠落している。
本稿では、ランダム行列理論と神経接核の理論に基づくasr-u系の性質を研究するための一般的な理論的枠組みを提案する。
このようなフレームワークにより、ASR-Uの様々な学習可能性条件とサンプル複雑性境界を証明できる。
3種類の遷移グラフを持つ合成言語に関する広範囲なasr-u実験は、我々の理論(cactuswiththoughts/unsupasrtheory.gitで利用可能なコード)に強い実証的証拠を与える。
関連論文リスト
- Iterative Preference Learning from Human Feedback: Bridging Theory and
Practice for RLHF under KL-Constraint [59.18441633176669]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程の理論的枠組みについて検討する。
我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。
我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。
モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。
提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文 参考訳(メタデータ) (2023-12-02T10:06:54Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Learnability with PAC Semantics for Multi-agent Beliefs [38.88111785113001]
推論と帰納の緊張は、おそらく哲学、認知、人工知能といった分野において最も根本的な問題である。
Valiant氏は、学習の課題は推論と統合されるべきである、と認識した。
古典的な包含よりも弱いが、クエリに応答する強力なモデル理論のフレームワークを可能にする。
論文 参考訳(メタデータ) (2023-06-08T18:22:46Z) - Networked Communication for Decentralised Agents in Mean-Field Games [66.3272498854875]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
私たちのアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを示しています。
さらに、ネットワーク化されたアプローチには、中央集権型と独立型の両方の選択肢よりも大きなアドバンテージがあることも示します。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - SAT-Based PAC Learning of Description Logic Concepts [18.851061569487616]
本稿では,記述の存在下で論理概念を学習するためのスキームとして有界フィッティングを提案する。
本稿では,SATソルバをベースとした記述論理 $mathcalELHr$ のバウンドフィッティングを実装したシステム SPELL を提案し,その性能を最先端の学習者と比較する。
論文 参考訳(メタデータ) (2023-05-15T10:20:31Z) - A Parameterized Theory of PAC Learning [19.686465068713467]
おそらく略正(PAC)学習は、サンプル複雑性理論の中核的な概念である。
我々は、パラメータ化複雑性の要素を組み込んだ最近のPAC学習結果に新たな光を当てることができるパラメータ化PAC学習の理論を開発した。
論文 参考訳(メタデータ) (2023-04-27T09:39:30Z) - Non-Axiomatic Term Logic: A Computational Theory of Cognitive Symbolic
Reasoning [3.344997561878685]
非軸性項論理(非軸性項論理、Non-Axiomatic Term Logic、NATL)は、人工知能における人間のような記号的推論の理論的計算フレームワークである。
NATLは、アリストテレスの項論理から着想を得た離散構文体系と、分散表現の現代的な考え方に基づく連続意味体系を結合する。
論文 参考訳(メタデータ) (2022-10-12T15:31:35Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。