論文の概要: Byte Pair Encoding Is All You Need For Automatic Bengali Speech
Recognition
- arxiv url: http://arxiv.org/abs/2401.15532v1
- Date: Sun, 28 Jan 2024 00:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:51:24.628638
- Title: Byte Pair Encoding Is All You Need For Automatic Bengali Speech
Recognition
- Title(参考訳): 自動ベンガル音声認識に必要なバイトコードペアエンコーディング
- Authors: Ahnaf Mozib Samin
- Abstract要約: バイトペア符号化(BPE)は、oo-of-vocabulary(OOV)課題に対処するための効果的なトークン化手法として現れる。
最近の研究は、BPEサブワードトークン化の有効性が言語の形態学的性質に依存していることを強調している。
本研究は,ベンガル語に対するBPEトークンの最適個数を実験的に同定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Byte pair encoding (BPE) emerges as an effective tokenization method for
tackling the out-of-vocabulary (OOV) challenge in various natural language and
speech processing tasks. Recent research highlights the dependency of BPE
subword tokenization's efficacy on the morphological nature of the language,
particularly in languages rich in inflectional morphology, where fewer BPE
merges suffice for generating highly productive tokens. Motivated by this, our
study empirically identifies the optimal number of BPE tokens for Bengali, a
language known for its morphological complexity, thus enhancing
out-of-distribution automatic speech recognition (ASR) performance.
Experimental evaluation reveals that an excessively high number of BPE tokens
can lead to overfitting, while approximately 500-1000 tokens result in superior
OOV performance. Furthermore, we conduct a comparative analysis of BPE with
character-based and unigram-based tokenization methods. By introducing BPE
tokenization to Bengali ASR, we achieve a substantial reduction in the word
error rate (WER) from 66.44% in our character-based baseline system to 63.80%
on the LB-ASRTD eval set and from 46.34% to 42.80% on the SHRUTI eval set, both
of which include out-of-distribution data.
- Abstract(参考訳): バイト対符号化(bpe)は、様々な自然言語や音声処理タスクにおいて、語彙外(oov)課題に取り組むための効果的なトークン化手法として出現する。
近年の研究では、BPEサブワードトークン化の言語の形態的性質への依存性、特に屈折形態学に富む言語において、BPEサブワードトークン化の有効性が強調されている。
そこで本研究では,その形態的複雑さで知られているベンガル語に対する最適BPEトークン数を実証的に同定し,アウト・オブ・ディストリビューション自動音声認識(ASR)の性能を向上させる。
実験により、過度に多くのBPEトークンが過度に適合し、約500-1000トークンがOOV性能に優れた結果をもたらすことが示された。
さらに,文字ベースおよびユニグラムベースのトークン化手法を用いて,BPEの比較分析を行った。
BPEトークン化をBengali ASRに導入することにより、文字ベースのベースラインシステムの66.44%から、LB-ASRTDのevalセットで63.80%、SHRUTIのevalセットで46.34%から42.80%へと、単語エラー率(WER)を大幅に削減できる。
関連論文リスト
- Scaffold-BPE: Enhancing Byte Pair Encoding with Simple and Effective Scaffold Token Removal [25.406520591282366]
そこで本研究では,パラメータフリー,計算軽度,実装が容易なオリジナルのBPEによる動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングタスクと機械翻訳タスクにわたる広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Tokenization Is More Than Compression [15.689084780238597]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野から来ており、BPEはテキストを比較的少数のトークンに凝縮する能力に由来することが示唆されている。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - On the N-gram Approximation of Pre-trained Language Models [17.764803904135903]
大規模事前学習型言語モデル(PLM)は、様々な自然言語理解(NLU)タスクにおいて顕著な性能を示している。
本研究では,自動音声認識(ASR)における言語モデリングにおけるPLMの有用性について検討する。
我々は,GPT-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用について比較した。
論文 参考訳(メタデータ) (2023-06-12T06:42:08Z) - Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。
我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。
ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-01T15:01:01Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。