論文の概要: Syllable Subword Tokens for Open Vocabulary Speech Recognition in
Malayalam
- arxiv url: http://arxiv.org/abs/2301.06736v1
- Date: Tue, 17 Jan 2023 07:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 14:48:40.867681
- Title: Syllable Subword Tokens for Open Vocabulary Speech Recognition in
Malayalam
- Title(参考訳): マラヤラムにおける開語彙音声認識のための助詞トークン
- Authors: Kavya Manohar, A. R. Jayan, Rajeev Rajan
- Abstract要約: 語彙発音(PL)と言語モデル(LM)は、音声単語列を正しく検索するために不可欠である。
形態学的に複雑な言語であるため、マラヤラムの語彙は非常に巨大であり、様々な語形をカバーするPLとLMを構築することは不可能である。
PLとLMを構築するためにサブワードトークンを使用し、デコード後に単語を形成するためにそれらを組み合わせて、多くの語彙単語の回復を可能にする。
- 参考スコア(独自算出の注目度): 2.7823528791601695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a hybrid automatic speech recognition (ASR) system, a pronunciation
lexicon (PL) and a language model (LM) are essential to correctly retrieve
spoken word sequences. Being a morphologically complex language, the vocabulary
of Malayalam is so huge and it is impossible to build a PL and an LM that cover
all diverse word forms. Usage of subword tokens to build PL and LM, and
combining them to form words after decoding, enables the recovery of many out
of vocabulary words. In this work we investigate the impact of using syllables
as subword tokens instead of words in Malayalam ASR, and evaluate the relative
improvement in lexicon size, model memory requirement and word error rate.
- Abstract(参考訳): ハイブリッド自動音声認識(ASR)システムでは、発音辞書(PL)と言語モデル(LM)が音声単語列を正しく検索するのに不可欠である。
形態的に複雑な言語であるため、マラヤラム語の語彙は非常に巨大であり、様々な単語形式をカバーするplとlmを構築することは不可能である。
PLとLMを構築するためにサブワードトークンを使用し、デコード後に単語を形成するためにそれらを組み合わせて、多くの語彙単語の回復を可能にする。
本研究は,マラヤラム語asrにおける単語の代わりに音節を副単語トークンとして用いることの影響を調査し,語彙サイズ,モデルメモリ要件,単語誤り率の相対的改善を評価する。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - From Tokens to Words: On the Inner Lexicon of LLMs [7.148628740938674]
自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。
本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。
以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T09:53:35Z) - Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Subword Mapping and Anchoring across Languages [1.9352552677009318]
SMALA (Subword Mapping and Anchoring across Languages) は、バイリンガルなサブワード語彙を構築する方法である。
SMALAは教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出する。
SMALAで獲得した単語語彙は,多くの偽陽性と偽陰性を含む文のBLEUスコアが高くなることを示す。
論文 参考訳(メタデータ) (2021-09-09T20:46:27Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - SubICap: Towards Subword-informed Image Captioning [37.42085521950802]
単語をより小さな構成単位「サブワード」に分解し、字幕を単語の代わりにサブワードの列として表現する。
本システムでは,学習語彙サイズをベースラインより約90%小さくすることで,様々な測定値を改善する。
論文 参考訳(メタデータ) (2020-12-24T06:10:36Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。