論文の概要: Minimal Effective Theory for Phonotactic Memory: Capturing Local
Correlations due to Errors in Speech
- arxiv url: http://arxiv.org/abs/2309.02466v1
- Date: Mon, 4 Sep 2023 22:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 18:06:38.335940
- Title: Minimal Effective Theory for Phonotactic Memory: Capturing Local
Correlations due to Errors in Speech
- Title(参考訳): 音韻記憶の最小有効理論--音声の誤りによる局所的相関を捉える
- Authors: Paul Myles Eugenio
- Abstract要約: 話し言葉における局所的な音声相関は、その情報内容を減らすことによって、話し言葉の学習を促進する。
局所接続型テンソルネットワークモデルを構築し、多体物理学で用いられる同様の変分モデルに着想を得た。
したがって、モデルは音素記憶の最小モデルであり、「発音への学習」と「単語の学習」は同一である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken language evolves constrained by the economy of speech, which depends
on factors such as the structure of the human mouth. This gives rise to local
phonetic correlations in spoken words. Here we demonstrate that these local
correlations facilitate the learning of spoken words by reducing their
information content. We do this by constructing a locally-connected
tensor-network model, inspired by similar variational models used for many-body
physics, which exploits these local phonetic correlations to facilitate the
learning of spoken words. The model is therefore a minimal model of phonetic
memory, where "learning to pronounce" and "learning a word" are one and the
same. A consequence of which is the learned ability to produce new words which
are phonetically reasonable for the target language; as well as providing a
hierarchy of the most likely errors that could be produced during the action of
speech. We test our model against Latin and Turkish words. (The code is
available on GitHub.)
- Abstract(参考訳): 音声言語は、人間の口の構造などの要因に依存する、言語経済によって制約されるように進化する。
これにより、話し言葉の局所的な音声的相関が生じる。
本稿では,これらの局所的相関関係が,情報量を減らすことにより,話し言葉の学習を促進することを実証する。
我々は、多体物理学で用いられる類似の変分モデルに触発された局所連結テンソル-ネットワークモデルを構築し、これらの局所音韻相関を利用して音声単語の学習を容易にする。
したがって、モデルは音素記憶の最小モデルであり、「発音への学習」と「単語の学習」は同一である。
その結果、ターゲット言語に対して音声学的に妥当な新しい単語を生成することができるようになり、また、音声の動作中に発生する可能性のある最も可能性の高いエラーの階層を提供する。
モデルはラテン語とトルコ語の単語に対してテストします。
(コードはgithubで入手できる)。
関連論文リスト
- Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 語彙的・構文的理解に適した音節単位。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Speech language models lack important brain-relevant semantics [6.626540321463248]
近年の研究では、テキストベースの言語モデルは、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
論文 参考訳(メタデータ) (2023-11-08T13:11:48Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - From `Snippet-lects' to Doculects and Dialects: Leveraging Neural
Representations of Speech for Placing Audio Signals in a Language Landscape [3.96673286245683]
XLSR-53は音声の多言語モデルであり、音声からベクトル表現を構築する。
我々は、最大プーリングを使用して、神経表現を「スニペットレクト」から「ドキュレクト」に集約する。
11のコーパス間の類似度測定は、同一言語の方言として知られているものの間に最も近い関係をもたらす。
論文 参考訳(メタデータ) (2023-05-29T20:37:06Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。