論文の概要: BBPE16: UTF-16-based byte-level byte-pair encoding for improved multilingual speech recognition
- arxiv url: http://arxiv.org/abs/2602.01717v1
- Date: Mon, 02 Feb 2026 06:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.961918
- Title: BBPE16: UTF-16-based byte-level byte-pair encoding for improved multilingual speech recognition
- Title(参考訳): BBPE16: UTF-16に基づく多言語音声認識のためのバイトレベルのバイトペア符号化
- Authors: Hyunsik Kim, Haeri Kim, Munhak Lee, Kyungmin Lee,
- Abstract要約: Longer-8 を用いたバイトレベルの BPE (BBPE) は言語に依存しない設計と完全なカバレッジのために広く採用されている。
本稿では,Unicode-16ベースのBBPEトークンであるBBPE16を提案する。
- 参考スコア(独自算出の注目度): 18.054653205555862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual automatic speech recognition (ASR) requires tokenization that efficiently covers many writing systems. Byte-level BPE (BBPE) using UTF-8 is widely adopted for its language-agnostic design and full Unicode coverage, but its variable-length encoding inflates token sequences for non-Latin scripts, such as Chinese, Japanese, and Korean (CJK). Longer sequences increase computational load and memory use. We propose BBPE16, a UTF-16-based BBPE tokenizer that represents most modern scripts with a uniform 2-byte code unit. BBPE16 preserves BBPE's language-agnostic properties while substantially improving cross-lingual token sharing. Across monolingual, bilingual, and trilingual ASR, and in a multilingual continual-learning setup, BBPE16 attains comparable or better accuracy; for Chinese, it reduces token counts by up to 10.4% and lowers decoding iterations by up to 10.3%. These reductions speed up fine-tuning and inference and decrease memory usage, making BBPE16 a practical tokenization choice for multilingual ASR.
- Abstract(参考訳): 多言語自動音声認識(ASR)は、多くの書き込みシステムを効率的にカバーするトークン化を必要とする。
UTF-8を用いたバイトレベルBPE(BBPE)は、言語に依存しない設計とUnicodeの完全なカバレッジに広く採用されているが、中国語、日本語、韓国語(CJK)などの非ラテン文字に対して、可変長のエンコーディングがトークンシーケンスを膨らませている。
より長いシーケンスは、計算負荷とメモリ使用量を増加させる。
UTF-16をベースとしたBBPEトークンであるBBPE16を提案する。
BBPE16はBBPEの言語に依存しない性質を保ちながら、言語間のトークン共有を大幅に改善している。
モノリンガル、バイリンガル、トリリンガルのASR、および多言語連続学習のセットアップにおいて、BBPE16は同等またはより良い精度を達成し、中国語ではトークンの数を最大10.4%減らし、復号の繰り返しを最大10.3%減らした。
これにより、微調整と推論の高速化とメモリ使用量の削減が可能となり、BBPE16は多言語ASRの実用的なトークン化選択となる。
関連論文リスト
- Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [18.594241501479747]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
古典的Byte-pairを適用する前に, 形態素認識のセグメンテーションを事前学習のステップとして提案する。
音節ベースの書記システムに共通する係り受け母音を扱うために,制約付きBPE(CBPE)を提案する。
CBPEは従属母音を扱い、単一の単位として発生するのではなく、他の文字との結合単位を形成する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。