論文の概要: On the Acquisition of Shared Grammatical Representations in Bilingual Language Models
- arxiv url: http://arxiv.org/abs/2503.03962v1
- Date: Wed, 05 Mar 2025 23:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:24.515774
- Title: On the Acquisition of Shared Grammatical Representations in Bilingual Language Models
- Title(参考訳): バイリンガル言語モデルにおける共有文法表現の獲得について
- Authors: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen,
- Abstract要約: 第二言語でトレーニングを始めると、モノリンガル言語モデルに何が起こるのかを尋ねる。
共有多言語表現の証拠を見つけるために,人間の文法表現を研究するために用いられる構造プライミングに目を向ける。
我々は、この非対称性が人間の構造的プライミング効果に関する仮説を形成するかもしれないと論じる。
- 参考スコア(独自算出の注目度): 6.266732217239363
- License:
- Abstract: While crosslingual transfer is crucial to contemporary language models' multilingual capabilities, how it occurs is not well understood. In this paper, we ask what happens to a monolingual language model when it begins to be trained on a second language. Specifically, we train small bilingual models for which we control the amount of data for each language and the order of language exposure. To find evidence of shared multilingual representations, we turn to structural priming, a method used to study grammatical representations in humans. We first replicate previous crosslingual structural priming results and find that after controlling for training data quantity and language exposure, there are asymmetrical effects across language pairs and directions. We argue that this asymmetry may shape hypotheses about human structural priming effects. We also find that structural priming effects are less robust for less similar language pairs, highlighting potential limitations of crosslingual transfer learning and shared representations for typologically diverse languages.
- Abstract(参考訳): 異言語間移動は現代言語モデルの多言語機能にとって重要であるが、どのように起こるかはよく理解されていない。
本稿では,言語モデルが第二言語で訓練され始めると,モノリンガル言語モデルに何が起こるのかを問う。
具体的には、各言語のデータ量と言語露出の順序を制御できる小さなバイリンガルモデルを訓練する。
共有多言語表現の証拠を見つけるために,人間の文法表現を研究するために用いられる構造プライミングに目を向ける。
まず、従来の言語間構造的プライミングの結果を再現し、トレーニングデータ量と言語露出を制御した後に、言語対と方向の非対称な効果があることを見出した。
我々は、この非対称性が人間の構造的プライミング効果に関する仮説を形成するかもしれないと論じる。
また、構造的プライミング効果は、類似の少ない言語ペアに対してより堅牢であり、多言語間移動学習の潜在的な制限と、類型的に多様な言語に対する共有表現を強調している。
関連論文リスト
- Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages [15.203789021094982]
大規模言語モデル(LLM)では、複数の言語がどのように学習され、エンコードされているか?
Llama-3-8BとAya-23-8Bでスパースオートエンコーダを訓練し、抽象文法の概念が多くの言語で共有される特徴方向に符号化されることを実証する。
論文 参考訳(メタデータ) (2025-01-10T21:18:21Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Structural Priming Demonstrates Abstract Grammatical Representations in
Multilingual Language Models [6.845954748361076]
我々は,大言語モデルにおける抽象単言語および多言語文法表現の証拠を見出した。
その結果、多言語言語モデルにおける文法表現は言語間で類似しているだけでなく、異なる言語で生成されたテキストに因果的に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2023-11-15T18:39:56Z) - Crosslingual Structural Priming and the Pre-Training Dynamics of
Bilingual Language Models [6.845954748361076]
構造プライミングを用いて、モデル出力に対する因果効果を持つ抽象文法表現をテストする。
オランダ語と英語のバイリンガル設定にアプローチを拡張し,事前学習時のオランダ語と英語のモデルを評価する。
また,第2言語に曝露すると,言語間構造的プライミング効果が早期に出現し,その言語でのデータトークンが100万個未満であることが判明した。
論文 参考訳(メタデータ) (2023-10-11T22:57:03Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。