論文の概要: One Script Instead of Hundreds? On Pretraining Romanized Encoder Language Models
- arxiv url: http://arxiv.org/abs/2601.05776v1
- Date: Fri, 09 Jan 2026 13:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.971555
- Title: One Script Instead of Hundreds? On Pretraining Romanized Encoder Language Models
- Title(参考訳): 数百文字ではなく1つのスクリプト? ローマン化エンコーダ言語モデルの事前学習について
- Authors: Benedikt Ebing, Lennart Keller, Goran Glavaš,
- Abstract要約: 複数言語モデル(mLM)における言語間移動(XLT)改善のための効果的な戦略として,ロマン化が出現した。
i) スクリプト固有情報の欠落, (ii) 語彙重複の増大による負の言語間干渉の2つの潜在的な劣化源について検討した。
異なる忠実度プロファイルを持つ2つのロマナイザを用いて、セグメントスクリプトを持つ言語に対して、無視可能な性能損失を観測する。
- 参考スコア(独自算出の注目度): 6.607456010103339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exposing latent lexical overlap, script romanization has emerged as an effective strategy for improving cross-lingual transfer (XLT) in multilingual language models (mLMs). Most prior work, however, focused on setups that favor romanization the most: (1) transfer from high-resource Latin-script to low-resource non-Latin-script languages and/or (2) between genealogically closely related languages with different scripts. It thus remains unclear whether romanization is a good representation choice for pretraining general-purpose mLMs, or, more precisely, if information loss associated with romanization harms performance for high-resource languages. We address this gap by pretraining encoder LMs from scratch on both romanized and original texts for six typologically diverse high-resource languages, investigating two potential sources of degradation: (i) loss of script-specific information and (ii) negative cross-lingual interference from increased vocabulary overlap. Using two romanizers with different fidelity profiles, we observe negligible performance loss for languages with segmental scripts, whereas languages with morphosyllabic scripts (Chinese and Japanese) suffer degradation that higher-fidelity romanization mitigates but cannot fully recover. Importantly, comparing monolingual LMs with their mLM counterpart, we find no evidence that increased subword overlap induces negative interference. We further show that romanization improves encoding efficiency (i.e., fertility) for segmental scripts at a negligible performance cost.
- Abstract(参考訳): 多言語言語モデル(mLM)における言語間移動(XLT)を改善するための効果的な戦略として,遅延語彙の重複を露呈するスクリプトロマンライゼーションが出現している。
しかし、以前のほとんどの研究は、ローマン化を最も好む設定に焦点をあてた: (1) 高リソースのラテン文字から低リソースの非ラテン文字言語へ、および/または異なるスクリプトを持つ属学的に密接に関連する言語間で転送する。
したがって、ローマン化が汎用 mLM の事前学習に適した表現選択であるのか、あるいはより正確には、ローマン化に伴う情報損失が高リソース言語の性能を損なうかどうかは不明である。
このギャップに対処するためには,6つのタイポロジカルに多種多様な高リソース言語に対して,ローマ字と原文の両方でゼロからエンコーダLMを事前訓練し,2つの潜在的な劣化源について検討する。
(i)スクリプト固有の情報の喪失と
(ii)語彙重複の増大による負の言語間干渉。
一方, 日本語と中国語の2言語は, 高忠実度ロマネライゼーションが緩和されるが, 完全回復が不可能な劣化に悩まされている。
重要なことは、モノリンガルLMとmLMを比較すると、サブワードの重複の増加が負の干渉を引き起こすという証拠は見つからない。
さらに,ロマン化により,セグメントスクリプトの符号化効率(すなわち,肥大化)は無視可能な性能コストで向上することを示す。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。