論文の概要: VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications
- arxiv url: http://arxiv.org/abs/2603.04145v1
- Date: Wed, 04 Mar 2026 14:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.361989
- Title: VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications
- Title(参考訳): VietNormalizer: TTSおよびNLPアプリケーションにおけるベトナムのテキスト正規化のためのオープンソースで依存性のないPythonライブラリ
- Authors: Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen, Ushik Shrestha Khwakhali, Thanh Pham, Vinh Do, Charlotte Nguyen, Hien Nguyen,
- Abstract要約: VietNormalizer1は、ベトナムのテキスト正規化のためのオープンソースのゼロ依存Pythonライブラリである。
本稿では,ルールベース正規化パラダイムの設計決定,既存手法の限界,および他の低リソース音節および凝集言語への一般化可能性について論じる。
- 参考スコア(独自算出の注目度): 0.39348763368961404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VietNormalizer1, an open-source, zero-dependency Python library for Vietnamese text normalization targeting Text-to-Speech (TTS) and Natural Language Processing (NLP) applications. Vietnamese text normalization is a critical yet underserved preprocessing step: real-world Vietnamese text is densely populated with non-standard words (NSWs), including numbers, dates, times, currency amounts, percentages, acronyms, and foreign-language terms, all of which must be converted to fully pronounceable Vietnamese words before TTS synthesis or downstream language processing. Existing Vietnamese normalization tools either require heavy neural dependencies while covering only a narrow subset of NSW classes, or are embedded within larger NLP toolkits without standalone installability. VietNormalizer addresses these gaps through a unified, rule-based pipeline that: (1) converts arbitrary integers, decimals, and large numbers to Vietnamese words; (2) normalizes dates and times to their spoken Vietnamese forms; (3) handles VND and USD currency amounts; (4) expands percentages; (5) resolves acronyms via a customizable CSV dictionary; (6) transliterates non-Vietnamese loanwords and foreign terms to Vietnamese phonetic approximations; and (7) performs Unicode normalization and emoji/special-character removal. All regular expression patterns are pre-compiled at initialization, enabling high-throughput batch processing with minimal memory overhead and no GPU or external API dependency. The library is installable via pip install vietnormalizer, available on PyPI and GitHub at https://github.com/nghimestudio/vietnormalizer, and released under the MIT license. We discuss the design decisions, limitations of existing approaches, and the generalizability of the rule-based normalization paradigm to other low-resource tonal and agglutinative languages.
- Abstract(参考訳): ベトナム語テキスト正規化(TTS)および自然言語処理(NLP)アプリケーションをターゲットとした,ベトナム語テキスト正規化のための,オープンソースのゼロ依存PythonライブラリであるVietNormalizer1を提案する。
実世界のベトナム語のテキストは、数字、日付、時間、通貨の量、比率、頭字語、外国語を含む非標準語(NSW)が密集しており、これらはすべてTS合成または下流言語処理の前に完全に発音可能なベトナム語の単語に変換されなければならない。
既存のベトナムの正規化ツールは、NSWクラスの狭いサブセットだけをカバーしながら、重い神経依存を必要とするか、あるいはスタンドアロンのインストール性のない大規模なNLPツールキットに組み込まれている。
VietNormalizerはこれらのギャップを、(1)任意の整数、十進数、および大文字をベトナム語に変換する; (2) 日付と時刻をベトナム語に正規化する; (3) VNDおよびUSD通貨の量を扱う; (4) パーセンテージを拡大する; (5) カスタマイズ可能なCSV辞書を通じて頭字語を解消する; (6) 非ベトナム語借用語と外国語をベトナム語の音素近似に翻訳する; (7) Unicode正規化と絵文字/特殊文字除去を行う。
すべての正規表現パターンは初期化時にプリコンパイルされ、メモリオーバーヘッドを最小限に抑え、GPUや外部APIに依存しない高スループットのバッチ処理を可能にする。
ライブラリはpip install vietnormalizer経由でインストール可能で、PyPIとGitHubでhttps://github.com/nghimestudio/vietnormalizerで入手できる。
本稿では,ルールベース正規化パラダイムの設計決定,既存手法の限界,および他の低リソース音節および凝集言語への一般化可能性について論じる。
関連論文リスト
- Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。
単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。
Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T17:41:01Z) - PolyNorm: Few-Shot LLM-Based Text Normalization for Text-to-Speech [1.9288174612754012]
テキスト正規化(TN)は、テキスト音声合成(TTS)システムにおいて重要な前処理ステップである。
大規模言語モデル(LLM)を用いたTNへのプロンプトベースのアプローチであるPolyNormを提案する。
本稿では,多言語にわたるスケーラブルな実験を容易にするために,自動データキュレーションと評価のための言語に依存しないパイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-05T00:06:35Z) - ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization [1.053698976085779]
ViSoLexはベトナムのソーシャルメディアテキストの語彙正規化の課題に対処するために設計されたオープンソースのシステムである。
ソースコードを公開することで、ViSoLexはベトナムのより堅牢な自然言語処理ツールの開発に貢献することを目指している。
論文 参考訳(メタデータ) (2025-01-13T02:47:13Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media
Text [1.1842520528140819]
ベトナムの語彙正規化タスクのために開発された最初のコーパスであるベトナム語語彙正規化(ViLexNorm)を紹介する。
このコーパスは、ベトナムで最も人気のあるソーシャルメディアプラットフォームに関する公のコメントから引用された、人間の注釈によって丁寧に注釈付けされた1万件以上の文で構成されている。
論文 参考訳(メタデータ) (2024-01-29T18:41:39Z) - Enhancing Cross-lingual Natural Language Inference by Soft Prompting
with Multilingual Verbalizer [52.46740830977898]
言語間自然言語推論は言語間言語理解の基本的な問題である。
我々は,XNLIのためのマルチリンガル・バーバリザ(SoftMV)を用いたソフトプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:31:29Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - NeMo Inverse Text Normalization: From Development To Production [16.78655059319487]
逆テキスト正規化(ITN)は、音声ドメイン自動音声認識(ASR)出力を書き込みドメインテキストに変換する。
開発から運用までのシームレスなパスを可能にするオープンソースのPython WFSTベースのITNライブラリを紹介します。
論文 参考訳(メタデータ) (2021-04-11T17:09:49Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。