論文の概要: MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling
- arxiv url: http://arxiv.org/abs/2403.10691v2
- Date: Mon, 11 Nov 2024 13:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:23.675184
- Title: MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling
- Title(参考訳): MYTE: より良く公平な多言語言語モデリングのための形態素駆動バイトコード符号化
- Authors: Tomasz Limisiewicz, Terra Blevins, Hila Gonen, Orevaoghene Ahia, Luke Zettlemoyer,
- Abstract要約: 多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
- 参考スコア(独自算出の注目度): 70.34758460372629
- License:
- Abstract: A major consideration in multilingual language modeling is how to best represent languages with diverse vocabularies and scripts. Although contemporary text encoding methods cover most of the world's writing systems, they exhibit bias towards the high-resource languages of the Global West. As a result, texts of underrepresented languages tend to be segmented into long sequences of linguistically meaningless units. To address the disparities, we introduce a new paradigm that encodes the same information with segments of consistent size across diverse languages. Our encoding convention (MYTE) is based on morphemes, as their inventories are more balanced across languages than characters, which are used in previous methods. We show that MYTE produces shorter encodings for all 99 analyzed languages, with the most notable improvements for non-European languages and non-Latin scripts. This, in turn, improves multilingual LM performance and diminishes the perplexity gap throughout diverse languages.
- Abstract(参考訳): 多言語言語モデリングにおける主要な考慮事項は、様々な語彙とスクリプトを持つ言語を最もよく表現する方法である。
現代のテキスト符号化方式は世界の書記システムの大半をカバーしているが、グローバル・ウェストの高リソース言語に対する偏見を示す。
結果として、あまり表現されていない言語のテキストは、言語的に意味のない単位の長いシーケンスに分割される傾向にある。
多様な言語にまたがる一貫した大きさのセグメントで同一情報を符号化する新しいパラダイムを導入する。
我々の符号化規約(MYTE)は形態素に基づいており、その発明は文字よりも言語間でバランスが取れている。
我々は、MYTEが99言語すべてに対して短いエンコーディングを生成することを示し、ヨーロッパ以外の言語や非ラテン文字に対して最も顕著な改善がなされた。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
関連論文リスト
- LangSAMP: Language-Script Aware Multilingual Pretraining [48.16511046793275]
最近の多言語事前訓練言語モデル(mPLM)は、言語埋め込みの使用を避けることが多い。
LangSAMPには言語とスクリプトの埋め込みが組み込まれており、表現学習が強化されている。
我々は500以上の言語をカバーする多言語コーパス上のXLM-Rの継続事前学習にLangSAMPを適用した。
論文 参考訳(メタデータ) (2024-09-26T18:29:10Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - What does it mean to be language-agnostic? Probing multilingual sentence
encoders for typological properties [17.404220737977738]
最先端の多言語エンコーダから文表現を探索する手法を提案する。
本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
論文 参考訳(メタデータ) (2020-09-27T15:00:52Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。