論文の概要: Beyond Literal Token Overlap: Token Alignability for Multilinguality
- arxiv url: http://arxiv.org/abs/2502.06468v1
- Date: Mon, 10 Feb 2025 13:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:45.943226
- Title: Beyond Literal Token Overlap: Token Alignability for Multilinguality
- Title(参考訳): リテラルトークンオーバーラップを超えて - マルチリンガル性のためのトークンアライナビリティ
- Authors: Katharina Hämmerl, Tomasz Limisiewicz, Jindřich Libovický, Alexander Fraser,
- Abstract要約: 我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
- 参考スコア(独自算出の注目度): 53.680462160878925
- License:
- Abstract: Previous work has considered token overlap, or even similarity of token distributions, as predictors for multilinguality and cross-lingual knowledge transfer in language models. However, these very literal metrics assign large distances to language pairs with different scripts, which can nevertheless show good cross-linguality. This limits the explanatory strength of token overlap for knowledge transfer between language pairs that use distinct scripts or follow different orthographic conventions. In this paper, we propose subword token alignability as a new way to understand the impact and quality of multilingual tokenisation. In particular, this metric predicts multilinguality much better when scripts are disparate and the overlap of literal tokens is low. We analyse this metric in the context of both encoder and decoder models, look at data size as a potential distractor, and discuss how this insight may be applied to multilingual tokenisation in future work. We recommend our subword token alignability metric for identifying optimal language pairs for cross-lingual transfer, as well as to guide the construction of better multilingual tokenisers in the future. We publish our code and reproducibility details.
- Abstract(参考訳): これまでの研究では、トークンの重複、あるいはトークン分布の類似性も、言語モデルにおける多言語性や言語間知識伝達の予測因子として検討されてきた。
しかし、これらの非常にリテラルなメトリクスは、異なるスクリプトを持つ言語ペアに大きな距離を割り当てる。
これにより、異なるスクリプトを使用したり、異なる正書法に従う言語ペア間の知識伝達のためのトークンオーバーラップの説明的強度が制限される。
本稿では,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
我々は、エンコーダモデルとデコーダモデルの両方の文脈でこのメトリクスを分析し、データサイズを潜在的なイントラクタと見なし、この洞察が将来の作業における多言語トークン化にどのように適用されるかについて議論する。
言語間移動のための最適な言語ペアを特定するためのサブワードトークン整合性指標を推奨するとともに,将来,より優れた多言語トークンサライザの構築を指導する。
コードと再現性の詳細を公開します。
関連論文リスト
- mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - How Do Multilingual Encoders Learn Cross-lingual Representation? [8.409283426564977]
言語間転送は、他言語からの転送によって、トレーニングデータをほとんど、あるいは全く持たない言語に恩恵を与える。
この論文はまず、様々なタスクにおける先行技術と比較して、驚くべき言語間効果を示す。
また、多言語エンコーダに異なる言語間信号を注入する方法や、これらのモデルを用いた言語間転送の最適化挙動についても検討する。
論文 参考訳(メタデータ) (2022-07-12T17:57:05Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。