論文の概要: BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pretraining of BabyLM
- arxiv url: http://arxiv.org/abs/2406.11418v2
- Date: Tue, 9 Jul 2024 06:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 23:01:54.827762
- Title: BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pretraining of BabyLM
- Title(参考訳): BAMBINO-LM:(バイリンガル-)Human-Inspired Continual Pretraining of BabyLM
- Authors: Zhewen Shen, Aditya Joshi, Ruey-Cheng Chen,
- Abstract要約: 本稿では,小規模言語モデルの継続事前学習戦略であるBAMBINO-LMを紹介する。
BAMBINO-LMはBabyLMベースラインのイタリア語能力を向上させることを示す。
また, 副作用として, 提案手法は, 人間の子どもが同等の学習シナリオで持つようなL1の有効性の低下につながることを示した。
- 参考スコア(独自算出の注目度): 3.329407751651262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children from bilingual backgrounds benefit from interactions with parents and teachers to re-acquire their heritage language. In this paper, we investigate how this insight from behavioral study can be incorporated into the learning of small-scale language models. We introduce BAMBINO-LM, a continual pre-training strategy for BabyLM that uses a novel combination of alternation and PPO-based perplexity reward induced from a parent Italian model. Upon evaluation on zero-shot classification tasks for English and Italian, BAMBINO-LM improves the Italian language capability of a BabyLM baseline. Our ablation analysis demonstrates that employing both the alternation strategy and PPO-based modeling is key to this effectiveness gain. We also show that, as a side effect, the proposed method leads to a similar degradation in L1 effectiveness as human children would have had in an equivalent learning scenario. Through its modeling and findings, BAMBINO-LM makes a focused contribution to the pre-training of small-scale language models by first developing a human-inspired strategy for pre-training and then showing that it results in behaviours similar to that of humans.
- Abstract(参考訳): バイリンガルの背景を持つ子供たちは、両親や教師との交流によって、彼らの遺産言語を再取得する恩恵を受ける。
本稿では,この行動学習からの洞察を,小規模言語モデルの学習に組み込む方法について検討する。
本研究では,親のイタリアモデルから誘導されるリフレクションとPPOに基づくパープレキシティ報酬を組み合わせたBabyLMの継続事前学習戦略であるBAMBINO-LMを紹介する。
英語とイタリア語のゼロショット分類タスクを評価すると、BAMBINO-LMはBabyLMベースラインのイタリア語能力を向上させる。
我々のアブレーション分析は、この効果を得る上で、変更戦略とPPOに基づくモデリングの両方を活用することが重要であることを示している。
また, 副作用として, 提案手法は, 人間の子どもが同等の学習シナリオで持つようなL1の有効性の低下につながることを示した。
モデリングと発見を通じて、BAMBINO-LMは、まず人間にインスパイアされた事前学習戦略を開発し、それが人間の行動と似た行動をもたらすことを示すことで、小規模言語モデルの事前学習に焦点を合わせている。
関連論文リスト
- Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education [3.799331337558008]
大規模言語モデル(LLM)は、教育コンテンツの生成、インストラクターのフィードバックの提供、アセスメントにおける教師の作業量の削減を約束する。
本研究では,多言語大言語モデル(MLLM)がモノリンガル(英語のみ,スペイン語のみ)とバイリンガル(スパングリッシュ)にまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T23:16:25Z) - Less is More: Pre-Training Cross-Lingual Small-Scale Language Models with Cognitively-Plausible Curriculum Learning Strategies [2.6684726101845]
よりきめ細かいカリキュラム学習戦略を特定するために言語習得理論を利用できるかを評価する。
我々は、SSLMと取得インスパイアされたキュリキュラを言語横断的に実装するために、4つの言語家族のための年齢順コーパスを作成した。
論文 参考訳(メタデータ) (2024-10-30T10:31:54Z) - Exploring Natural Language-Based Strategies for Efficient Number Learning in Children through Reinforcement Learning [0.0]
本稿では,強化学習(RL)の枠組みを用いて,子どもが数を学ぶ方法を検討する。
最先端の強化学習モデルを用いて,様々な言語命令が数獲得に与える影響をシミュレートし,解析する。
論文 参考訳(メタデータ) (2024-10-10T19:49:13Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - CLIMB: Curriculum Learning for Infant-inspired Model Building [6.4766496232839685]
本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。
課題は、1000万ワードの比較的小さなトレーニングデータセットを使用して、言語モデルをゼロからトレーニングすることである。
認知に動機づけられたカリキュラム学習の3つの変種を実験し,そのモデルの性能に及ぼす影響を解析した。
論文 参考訳(メタデータ) (2023-11-15T11:48:16Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Word Acquisition in Neural Language Models [0.38073142980733]
ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。
子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
論文 参考訳(メタデータ) (2021-10-05T23:26:16Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。