論文の概要: Bringing Up a Bilingual BabyLM: Investigating Multilingual Language Acquisition Using Small-Scale Models
- arxiv url: http://arxiv.org/abs/2603.29552v1
- Date: Tue, 31 Mar 2026 10:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.550066
- Title: Bringing Up a Bilingual BabyLM: Investigating Multilingual Language Acquisition Using Small-Scale Models
- Title(参考訳): バイリンガル・ベイビーフィルムの導入:小規模モデルを用いた多言語言語習得の検討
- Authors: Linda Zeng, Steven Y. Feng, Michael C. Frank,
- Abstract要約: 我々は,多種多様な高度に制御された露光条件をシミュレートする手法として,言語モデルトレーニングを用いる。
合成データと機械翻訳を用いて,一致した100Mワードの単言語とバイリンガルのデータセットを作成する。
モデルスケールと測定値全体では、バイリンガルモデルは1つの言語におけるモノリンガルモデルと同様に機能するが、第2言語でも強い性能を示す。
- 参考スコア(独自算出の注目度): 2.475536483276974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingualism is incredibly common around the world, leading to many important theoretical and practical questions about how children learn multiple languages at once. For example, does multilingual acquisition lead to delays in learning? Are there better and worse ways to structure multilingual input? Many correlational studies address these questions, but it is surprisingly difficult to get definitive answers because children cannot be randomly assigned to be multilingual and data are typically not matched between languages. We use language model training as a method for simulating a variety of highly controlled exposure conditions, and create matched 100M-word mono- and bilingual datasets using synthetic data and machine translation. We train GPT-2 models on monolingual and bilingual data organized to reflect a range of exposure regimes, and evaluate their performance on perplexity, grammaticality, and semantic knowledge. Across model scales and measures, bilingual models perform similarly to monolingual models in one language, but show strong performance in the second language as well. These results suggest that there are no strong differences between different bilingual exposure regimes, and that bilingual input poses no in-principle challenges for agnostic statistical learners.
- Abstract(参考訳): マルチ言語主義は世界中で非常に一般的であり、子どもが一度に複数の言語を学ぶ方法に関して、多くの重要な理論的、実践的な疑問がもたらされる。
例えば、多言語習得は学習の遅れにつながるか?
多言語入力をより良く、より悪く構築する方法はあるか?
多くの相関研究はこれらの問題に対処しているが、子供がランダムに多言語に割り当てられることができず、典型的には言語間で一致しないため、決定的な答えを得るのは難しい。
我々は,高度に制御された様々な露出条件をシミュレートする手法として言語モデルトレーニングを使用し,合成データと機械翻訳を用いて一致した100Mワード単言語とバイリンガルのデータセットを作成する。
我々は,モノリンガルデータとバイリンガルデータに基づいてGPT-2モデルをトレーニングし,その性能を難易度,文法性,意味的知識で評価する。
モデルスケールと測定値全体では、バイリンガルモデルは1つの言語におけるモノリンガルモデルと同様に機能するが、第2言語でも強い性能を示す。
これらの結果から,バイリンガルの暴露形態には強い違いはなく,統計的学習者にとってバイリンガル入力は基本的な課題にはならないことが示唆された。
関連論文リスト
- Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs [24.59074126514084]
我々は,データアンラーニングと概念アンラーニングという2つの設定の下で,Aya-Expanse 8Bモデルを用いて多言語アンラーニングを研究する。
実際の知識とステレオタイプに関するベンチマークを、翻訳によって10言語に拡張する。
実験の結果,高出力言語では非学習がより安定であり,非対称な伝達効果がタイポロジー関連言語間で観測されることがわかった。
論文 参考訳(メタデータ) (2026-01-09T08:59:42Z) - Revisiting Multilingual Data Mixtures in Language Model Pretraining [20.282622416939997]
大規模言語モデルの事前学習における多言語データ混合の影響について検討する。
英語と多言語のデータの組み合わせは、いずれかのグループの言語内性能を劣化させるとは限らない。
トレーニング言語の数が増加するにつれて、重要な「多言語性の帰結」は観測されない。
論文 参考訳(メタデータ) (2025-10-29T20:46:03Z) - On the Acquisition of Shared Grammatical Representations in Bilingual Language Models [6.266732217239363]
言語間移動は、現代言語モデルの多言語能力にとって重要であるが、どのように起こるかはよく理解されていない。
第二言語でトレーニングを始めると、モノリンガル言語モデルに何が起こるのかを尋ねる。
共有多言語表現の証拠を見つけるために,人間の文法表現を研究するために用いられる構造プライミングに目を向ける。
論文 参考訳(メタデータ) (2025-03-05T23:27:58Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。