論文の概要: BAMBI: Developing Baby Language Models for Italian
- arxiv url: http://arxiv.org/abs/2503.09481v1
- Date: Wed, 12 Mar 2025 15:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:22.015006
- Title: BAMBI: Developing Baby Language Models for Italian
- Title(参考訳): BAMBI: イタリア語のためのベビー言語モデルの開発
- Authors: Alice Suozzi, Luca Capone, Gianluca E. Lebani, Alessandro Lenci,
- Abstract要約: 本稿では,5歳児のイタリア語話者の言語入力を模倣したデータに基づいて学習したBAMBI(Baby Language Models Boostrapped for Italian)について述べる。
BAMBIモデルは、受信したモデルのトレーニング入力量を考慮して、言語モデルを評価するために特別に設計されたベンチマークを使用してテストされる。
- 参考スコア(独自算出の注目度): 45.36413940519089
- License:
- Abstract: This paper presents BAMBI (BAby language Models Boostrapped for Italian), a series of Baby Language Models (BabyLMs) trained on data that mimic the linguistic input received by a five-year-old Italian-speaking child. The BAMBI models are tested using a benchmark specifically designed to evaluate language models, which takes into account the amount of training input the models received. The BAMBI models are compared against a large language model (LLM) and a multimodal language model (VLM) to study the contribution of extralinguistic information for language acquisition. The results of our evaluation align with the existing literature on English language models, confirming that while reduced training data support the development of relatively robust syntactic competence, they are insufficient for fostering semantic understanding. However, the gap between the training resources (data and computation) of the BAMBI models and the LLMs is not fully reflected in their performance: despite LLMs' massive training, their performance is not much better than that of BAMBI models. This suggests that strategies beyond scaling training resources, such as data curation, inclusion of multimodal input, and other training strategies such as curriculum learning, could play a crucial role in shaping model performance.
- Abstract(参考訳): 本稿では,5歳児のイタリア語話者の言語入力を模倣したデータに基づいて学習したBAMBI(Baby Language Models Boostrapped for Italian)について述べる。
BAMBIモデルは、受信したモデルのトレーニング入力量を考慮して、言語モデルを評価するために特別に設計されたベンチマークを使用してテストされる。
BAMBIモデルは、言語習得のための言語外情報の寄与を研究するために、大規模言語モデル(LLM)と多モーダル言語モデル(VLM)と比較される。
評価結果は、既存の英語モデルに関する文献と一致し、トレーニングデータの削減は比較的堅牢な構文能力の発達を支えるが、意味理解の育成には不十分であることを確認した。
しかしながら、BAMBIモデルのトレーニングリソース(データと計算)とLLM間のギャップは、その性能に完全には反映されていない。
これは、データキュレーションやマルチモーダル入力の導入、カリキュラム学習などのトレーニング戦略といった、トレーニングリソースをスケールする以外の戦略が、モデルのパフォーマンスを形作る上で重要な役割を担っていることを示唆している。
関連論文リスト
- LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pretraining of BabyLM [3.329407751651262]
本稿では,小規模言語モデルの継続事前学習戦略であるBAMBINO-LMを紹介する。
BAMBINO-LMはBabyLMベースラインのイタリア語能力を向上させることを示す。
また, 副作用として, 提案手法は, 人間の子どもが同等の学習シナリオで持つようなL1の有効性の低下につながることを示した。
論文 参考訳(メタデータ) (2024-06-17T11:08:08Z) - DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。