Fugu-MT 論文翻訳(概要): A Theory of Unsupervised Speech Recognition

論文の概要: A Theory of Unsupervised Speech Recognition

arxiv url: http://arxiv.org/abs/2306.07926v1
Date: Fri, 9 Jun 2023 08:12:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 12:34:14.245021
Title: A Theory of Unsupervised Speech Recognition
Title（参考訳）: 教師なし音声認識の一理論
Authors: Liming Wang, Mark Hasegawa-Johnson and Chang D. Yoo
Abstract要約: 教師なし音声認識(英語: Unsupervised speech Recognition, ASR-U)は、音声のみの音声とテキストのみのコーパスから自動音声認識システムを学習する問題である。本稿では,ランダム行列理論とニューラル・タンジェント・カーネルの理論に基づいて,ASR-U系の特性を研究するための一般的な理論的枠組みを提案する。
参考スコア（独自算出の注目度）: 60.12287608968879
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Unsupervised speech recognition (ASR-U) is the problem of learning automatic speech recognition (ASR) systems from unpaired speech-only and text-only corpora. While various algorithms exist to solve this problem, a theoretical framework is missing from studying their properties and addressing such issues as sensitivity to hyperparameters and training instability. In this paper, we proposed a general theoretical framework to study the properties of ASR-U systems based on random matrix theory and the theory of neural tangent kernels. Such a framework allows us to prove various learnability conditions and sample complexity bounds of ASR-U. Extensive ASR-U experiments on synthetic languages with three classes of transition graphs provide strong empirical evidence for our theory (code available at cactuswiththoughts/UnsupASRTheory.git).
Abstract（参考訳）: 教師なし音声認識(unsupervised speech recognition, asr-u)は、非ペアリング音声認識とテキストのみコーパスから自動音声認識(asr)システムを学習する問題である。この問題を解決するために様々なアルゴリズムが存在するが、その性質の研究やハイパーパラメータへの感度やトレーニングの不安定性といった問題に対処するための理論的枠組みが欠落している。本稿では、ランダム行列理論と神経接核の理論に基づくasr-u系の性質を研究するための一般的な理論的枠組みを提案する。このようなフレームワークにより、ASR-Uの様々な学習可能性条件とサンプル複雑性境界を証明できる。 3種類の遷移グラフを持つ合成言語に関する広範囲なasr-u実験は、我々の理論(cactuswiththoughts/unsupasrtheory.gitで利用可能なコード)に強い実証的証拠を与える。

関連論文リスト

On Theoretically-Driven LLM Agents for Multi-Dimensional Discourse Analysis [0.0]
本稿では,この課題に明示的な理論的知識を取り入れることのメリットを定量化するために,比較マルチエージェントフレームワークを提案する。我々は、注釈付き政治討論のデータセットを利用して、4つの異なる言い換え機能を含む新しい標準を確立する。我々は,2つの並列LLMエージェントシステムの評価を行った。1つはRetrieval-Augmented Generation (RAG)による議論理論により強化され,もう1つはゼロショットベースラインである。
論文参考訳（メタデータ） (2026-02-14T10:30:39Z)
From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning [83.94543243783285]
本研究では、内部パラメトリック知識と外部コンテキスト情報の統合を必要とする複雑なタスクである補完的推論について検討する。 RLは確率増幅器ではなく推論合成器として機能する。
論文参考訳（メタデータ） (2025-12-01T18:27:25Z)
Modeling Arbitrarily Applicable Relational Responding with the Non-Axiomatic Reasoning System: A Machine Psychology Approach [0.0]
非公理推論システム(NARS)を用いた人工知能フレームワークにおけるAARRモデリングのための新しい理論的アプローチを提案する。 NARSの推論規則とメモリ構造から,AARRのキー特性がどのように現れるかを示す。その結果、AARRは、適切に設計されたAIシステムによって概念的に捕捉可能であることが示唆された。
論文参考訳（メタデータ） (2025-03-01T20:37:11Z)
The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。 NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文参考訳（メタデータ） (2024-07-16T11:12:28Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Architecture of a Cortex Inspired Hierarchical Event Recaller [0.0]
本稿では、複雑なパターンの教師なし連続文脈依存学習に焦点を当てた機械学習(ML)に対する新しいアプローチを提案する。複雑な時間系列を同定し、予測できる合成構造を定義し、実験的に検証する。概念実証として, 提案システムでは, 事前知識を伴わずに, 人間の発話のような極めて複雑な時系列を学習し, 識別し, 予測できることが示されている。
論文参考訳（メタデータ） (2024-05-03T09:36:16Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Learnability with PAC Semantics for Multi-agent Beliefs [38.88111785113001]
推論と帰納の緊張は、おそらく哲学、認知、人工知能といった分野において最も根本的な問題である。 Valiant氏は、学習の課題は推論と統合されるべきである、と認識した。古典的な包含よりも弱いが、クエリに応答する強力なモデル理論のフレームワークを可能にする。
論文参考訳（メタデータ） (2023-06-08T18:22:46Z)
Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
論文参考訳（メタデータ） (2023-06-05T10:45:39Z)
SAT-Based PAC Learning of Description Logic Concepts [18.851061569487616]
本稿では,記述の存在下で論理概念を学習するためのスキームとして有界フィッティングを提案する。本稿では,SATソルバをベースとした記述論理 $mathcalELHr$ のバウンドフィッティングを実装したシステム SPELL を提案し,その性能を最先端の学習者と比較する。
論文参考訳（メタデータ） (2023-05-15T10:20:31Z)
A Parameterized Theory of PAC Learning [19.686465068713467]
おそらく略正(PAC)学習は、サンプル複雑性理論の中核的な概念である。我々は、パラメータ化複雑性の要素を組み込んだ最近のPAC学習結果に新たな光を当てることができるパラメータ化PAC学習の理論を開発した。
論文参考訳（メタデータ） (2023-04-27T09:39:30Z)
Non-Axiomatic Term Logic: A Computational Theory of Cognitive Symbolic Reasoning [3.344997561878685]
非軸性項論理(非軸性項論理、Non-Axiomatic Term Logic、NATL)は、人工知能における人間のような記号的推論の理論的計算フレームワークである。 NATLは、アリストテレスの項論理から着想を得た離散構文体系と、分散表現の現代的な考え方に基づく連続意味体系を結合する。
論文参考訳（メタデータ） (2022-10-12T15:31:35Z)
A Free Lunch from the Noise: Provable and Practical Exploration for Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文参考訳（メタデータ） (2021-11-22T19:24:57Z)
Nonlinear ISA with Auxiliary Variables for Learning Speech Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-25T14:53:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。