Fugu-MT 論文翻訳(概要): Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition

論文の概要: Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition

arxiv url: http://arxiv.org/abs/2401.15532v1
Date: Sun, 28 Jan 2024 00:41:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 17:51:24.628638
Title: Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition
Title（参考訳）: 自動ベンガル音声認識に必要なバイトコードペアエンコーディング
Authors: Ahnaf Mozib Samin
Abstract要約: バイトペア符号化(BPE)は、oo-of-vocabulary(OOV)課題に対処するための効果的なトークン化手法として現れる。最近の研究は、BPEサブワードトークン化の有効性が言語の形態学的性質に依存していることを強調している。本研究は,ベンガル語に対するBPEトークンの最適個数を実験的に同定した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Byte pair encoding (BPE) emerges as an effective tokenization method for tackling the out-of-vocabulary (OOV) challenge in various natural language and speech processing tasks. Recent research highlights the dependency of BPE subword tokenization's efficacy on the morphological nature of the language, particularly in languages rich in inflectional morphology, where fewer BPE merges suffice for generating highly productive tokens. Motivated by this, our study empirically identifies the optimal number of BPE tokens for Bengali, a language known for its morphological complexity, thus enhancing out-of-distribution automatic speech recognition (ASR) performance. Experimental evaluation reveals that an excessively high number of BPE tokens can lead to overfitting, while approximately 500-1000 tokens result in superior OOV performance. Furthermore, we conduct a comparative analysis of BPE with character-based and unigram-based tokenization methods. By introducing BPE tokenization to Bengali ASR, we achieve a substantial reduction in the word error rate (WER) from 66.44% in our character-based baseline system to 63.80% on the LB-ASRTD eval set and from 46.34% to 42.80% on the SHRUTI eval set, both of which include out-of-distribution data.
Abstract（参考訳）: バイト対符号化(bpe)は、様々な自然言語や音声処理タスクにおいて、語彙外(oov)課題に取り組むための効果的なトークン化手法として出現する。近年の研究では、BPEサブワードトークン化の言語の形態的性質への依存性、特に屈折形態学に富む言語において、BPEサブワードトークン化の有効性が強調されている。そこで本研究では,その形態的複雑さで知られているベンガル語に対する最適BPEトークン数を実証的に同定し,アウト・オブ・ディストリビューション自動音声認識(ASR)の性能を向上させる。実験により、過度に多くのBPEトークンが過度に適合し、約500-1000トークンがOOV性能に優れた結果をもたらすことが示された。さらに,文字ベースおよびユニグラムベースのトークン化手法を用いて,BPEの比較分析を行った。 BPEトークン化をBengali ASRに導入することにより、文字ベースのベースラインシステムの66.44%から、LB-ASRTDのevalセットで63.80%、SHRUTIのevalセットで46.34%から42.80%へと、単語エラー率(WER)を大幅に削減できる。

関連論文リスト

Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [62.35048154917945]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。本稿ではParity-aware Byte Pairを紹介する。私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文参考訳（メタデータ） (2025-08-06T18:14:43Z)
Entropy-Driven Pre-Tokenization for Byte-Pair Encoding [4.145560327709288]
2つのエントロピーインフォームドプレトークン化戦略は、教師なし情報理論を用いたBPEセグメンテーションを導く。両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-06-18T21:25:55Z)
MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文参考訳（メタデータ） (2025-04-14T15:44:45Z)
SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。 SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文参考訳（メタデータ） (2025-03-17T17:53:23Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-12-09T19:11:54Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。符号化プロセス中に長いトークンを優先するLBPEを提案する。多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-11-08T12:03:36Z)
Exploring SSL Discrete Tokens for Multilingual ASR [29.059205486691745]
本研究では,複数の言語領域にまたがるSSLモデルの離散トークンの比較を行った。実験により、離散トークンは、ASRタスクにおけるFbank機能に基づいて訓練されたシステムに対して、同等の結果が得られることが示された。
論文参考訳（メタデータ） (2024-09-13T13:13:39Z)
Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-08-05T09:37:21Z)
Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文参考訳（メタデータ） (2024-04-27T07:12:07Z)
Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。 (BPE)はデータ圧縮の分野に由来する。 PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文参考訳（メタデータ） (2024-02-28T14:52:15Z)
Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文参考訳（メタデータ） (2023-10-09T00:20:59Z)
SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。 SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文参考訳（メタデータ） (2023-07-31T04:38:47Z)
Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文参考訳（メタデータ） (2022-05-01T15:01:01Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文参考訳（メタデータ） (2020-04-07T21:21:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。