論文の概要: An In-Vitro Study on Cross-Lingual Generalization in Language Models
- arxiv url: http://arxiv.org/abs/2605.26683v1
- Date: Tue, 26 May 2026 08:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.748758
- Title: An In-Vitro Study on Cross-Lingual Generalization in Language Models
- Title(参考訳): 言語モデルにおける言語間一般化に関するインビトロ研究
- Authors: Adrian Cosma,
- Abstract要約: 語彙重なり、形態学、データ不均衡、トークン化が絡み合っているため、言語モデルの言語間移動は研究が難しい。
そこで我々は,同じオントロジー,型文法,構成構造を持つ2つの手続き生成言語を用いたインビトロフレームワークを提案する。
トークン化が再利用可能な言語間サブストラクチャを保存するか否かよりも,トークン化バランスや生の語彙的類似性がより少ないことが判明した。
- 参考スコア(独自算出の注目度): 1.9875440739965626
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-lingual transfer in language models is difficult to study in natural corpora because lexical overlap, morphology, data imbalance, and tokenization are entangled. We introduce an in-vitro framework with two procedurally generated languages that share the same ontology, typed grammar, and compositional structure, but differ in surface realization. This lets us independently vary lexical distance, minority-language proportion, tokenizer training regime, and vocabulary size, while evaluating transfer on a masked minority-language condition whose lexical forms are never observed during training. Across 700 controlled runs, we find that transfer is governed less by tokenizer balance or raw lexical similarity than by whether tokenization preserves reusable cross-lingual substructure. Smaller vocabularies often improve masked transfer by keeping words decomposable into shared fragments, whereas larger vocabularies can turn forms into language-specific atoms. We further show that transfer emerges as a staged process: grammatical and type-level competence precede masked lexical generalization. Finally, we attempt to explain this mechanism through tokenizer bridges and show that bridge strength correlates strongly with masked reachability.
- Abstract(参考訳): 言語モデルの言語間移動は、語彙的重なり、形態的重なり、データ不均衡、トークン化が絡み合っているため、自然コーパスでは研究が難しい。
そこで我々は,同じオントロジー,型付き文法,構成構造を持つ2つの手続き的に生成された言語を用いたインビトロフレームワークを提案する。
これにより、語彙距離、少数言語比率、トークンライザ訓練体制、語彙サイズを独立に変化させながら、学習中に語彙形式が観測されないマスク付きマイノリティ言語状態への移動を評価することができる。
700回にわたって, トランスファーは, トークン化が再利用可能な言語間サブストラクチャを保存するか否かよりも, トークン化バランスや生の語彙的類似性が低いことが判明した。
より小さな語彙は共有断片に分解可能な単語を保ち、より小さな語彙は形を言語固有の原子に変える。
さらに、移動は段階的プロセスとして現れることを示す:文法的および型レベルの能力は、マスク付き語彙一般化に先行する。
最後に、このメカニズムをトークン化橋を通して説明し、橋梁強度がマスクの到達可能性と強く相関していることを示す。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - On the Acquisition of Shared Grammatical Representations in Bilingual Language Models [6.266732217239363]
言語間移動は、現代言語モデルの多言語能力にとって重要であるが、どのように起こるかはよく理解されていない。
第二言語でトレーニングを始めると、モノリンガル言語モデルに何が起こるのかを尋ねる。
共有多言語表現の証拠を見つけるために,人間の文法表現を研究するために用いられる構造プライミングに目を向ける。
論文 参考訳(メタデータ) (2025-03-05T23:27:58Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Oolong: Investigating What Makes Transfer Learning Hard with Controlled
Studies [21.350999136803843]
GLUEベンチマークの言語を体系的に変換し、言語間変動の1軸を一度に変更する。
モデルが構文的変化から大きく回復することはできるが,語彙的誤りから回復することは不可能である。
我々の実験は、言語移行シナリオを設計する際に研究者が最も注目すべき言語間移動の要因に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-02-24T19:00:39Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Understanding Cross-Lingual Syntactic Transfer in Multilingual Recurrent
Neural Networks [3.9342247746757435]
現在、現代のニューラル言語モデルが複数の言語で同時にトレーニングできることが確立されている。
しかし、これらのモデル内の言語間でどのような知識が共有されているのか?
本稿では,言語間移動の異なる形態を識別し,その決定要因について検討する。
我々のLMを関連言語に公開することは、目標言語における文法的知識を常に増加させる訳ではなく、語彙-意味的移動の最適条件が構文的移動に最適でないことを我々は見出した。
論文 参考訳(メタデータ) (2020-03-31T09:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。