論文の概要: Parallel Tokenizers: Rethinking Vocabulary Design for Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2510.06128v1
- Date: Tue, 07 Oct 2025 17:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.370672
- Title: Parallel Tokenizers: Rethinking Vocabulary Design for Cross-Lingual Transfer
- Title(参考訳): パラレルトケナイザ:言語間移動のための語彙設計の再考
- Authors: Muhammad Dehan Al Kautsar, Fajri Koto,
- Abstract要約: トークン化は多言語言語モデルの基盤を定義する。
新しいフレームワークは、単言語でトークンを訓練し、バイリンガル辞書や単語間翻訳を用いて語彙を徹底的に調整する。
- 参考スコア(独自算出の注目度): 13.630754537249707
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tokenization defines the foundation of multilingual language models by determining how words are represented and shared across languages. However, existing methods often fail to support effective cross-lingual transfer because semantically equivalent words are assigned distinct embeddings. For example, "I eat rice" in English and "Ina cin shinkafa" in Hausa are typically mapped to different vocabulary indices, preventing shared representations and limiting cross-lingual generalization. We introduce parallel tokenizers. This new framework trains tokenizers monolingually and then aligns their vocabularies exhaustively using bilingual dictionaries or word-to-word translation, ensuring consistent indices for semantically equivalent words. This alignment enforces a shared semantic space across languages while naturally improving fertility balance. To assess their effectiveness, we pretrain a transformer encoder from scratch on thirteen low-resource languages and evaluate it on sentiment analysis, hate speech detection, emotion classification, and sentence embedding similarity. Across all tasks, models trained with parallel tokenizers outperform conventional multilingual baselines, confirming that rethinking tokenization is essential for advancing multilingual representation learning--especially in low-resource settings.
- Abstract(参考訳): トークン化は、単語が言語間でどのように表現され共有されるかを決定することによって、多言語言語モデルの基盤を定義する。
しかし、意味的に等価な単語が別の埋め込みに割り当てられているため、既存のメソッドは効果的な言語間移動をサポートしないことが多い。
例えば、英語の「I eat rice」や、ハウサ語の「Ina cin Shinkafa」は、通常異なる語彙の指標にマッピングされ、共有表現が防止され、言語間の一般化が制限される。
並列トークンを導入します。
この新たなフレームワークは、トークンを単言語で訓練し、その語彙をバイリンガル辞書や単語間翻訳を用いて徹底的に調整し、意味論的に等価な単語に対する一貫した指標を確保する。
このアライメントは、言語間の共有セマンティックスペースを強制すると同時に、自然に豊かさのバランスを改善する。
その効果を評価するために、13の低リソース言語でスクラッチからトランスフォーマーエンコーダを事前訓練し、感情分析、ヘイトスピーチ検出、感情分類、文章埋め込み類似性について評価する。
すべてのタスクにおいて、並列トークン化器で訓練されたモデルは従来の多言語ベースラインよりも優れており、特に低リソース環境では、トークン化の再考が多言語表現学習の進展に不可欠であることを確認している。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Beyond Shared Vocabulary: Increasing Representational Word Similarities
across Languages for Multilingual Machine Translation [9.794506112999823]
本稿では,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。
1) 類似した意味を持つ単語の埋め込みは言語間で整合性がよいこと,2) 提案手法は高・低リソースのMNMTに対して最大2.3ポイントのBLEU改善を実現すること,3) 計算コストの制限により1.0%未満のトレーニング可能なパラメータを必要とすること,である。
論文 参考訳(メタデータ) (2023-05-23T16:11:00Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。