論文の概要: BabyLM's First Constructions: Causal interventions provide a signal of learning
- arxiv url: http://arxiv.org/abs/2506.02147v1
- Date: Mon, 02 Jun 2025 18:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.930468
- Title: BabyLM's First Constructions: Causal interventions provide a signal of learning
- Title(参考訳): BabyLMの最初の構成:因果的介入は学習のシグナルを提供する
- Authors: Joshua Rozner, Leonie Weissweiler, Cory Shain,
- Abstract要約: 本研究では,2024年のBabyLMチャレンジから構築学習を評価する。
以上の結果から, 発達的に妥当なデータ量で訓練しても, モデルは多種多様な構成を表わすことが明らかとなった。
- 参考スコア(独自算出の注目度): 8.716668697264986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Construction grammar posits that children acquire constructions (form-meaning pairings) from the statistics of their environment. Recent work supports this hypothesis by showing sensitivity to constructions in pretrained language models (PLMs), including one recent study (Rozner et al., 2025) demonstrating that constructions shape the PLM's output distribution. However, models under study have generally been trained on developmentally implausible amounts of data, casting doubt on their relevance to human language learning. Here we use Rozner et al.'s methods to evaluate constructional learning in models from the 2024 BabyLM challenge. Our results show that even when trained on developmentally plausible quantities of data, models represent diverse constructions, even hard cases that are superficially indistinguishable. We further find correlational evidence that constructional performance may be functionally relevant: models that better represent constructions perform better on the BabyLM benchmarks.
- Abstract(参考訳): 構成文法は、子どもが環境統計から構成(形式的な意味のペアリング)を取得することを仮定する。
最近の研究は、プレトレーニング言語モデル(PLM)における構造に対する感受性を示すことでこの仮説を支持しており、例えば最近の研究(Rozner et al , 2025)では、構造がPLMの出力分布を形作ることを示した。
しかしながら、研究中のモデルは一般に、発達的に不確実な量のデータに基づいて訓練されており、人間の言語学習との関連性に疑問を呈している。
ここでは、2024年のBabyLMチャレンジのモデルにおける構成学習を評価するために、Rozner et alの手法を用いる。
以上の結果から, 発達的に妥当なデータ量で訓練しても, モデルは多種多様な構造を表現し, 表面的に区別できないハードケースさえも表現できることがわかった。
さらに、構造性能が機能的に関連している可能性があるという相関的な証拠が、BabyLMベンチマークでより良く構成を表現するモデルで見出されている。
関連論文リスト
- Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - BAMBI: Developing Baby Language Models for Italian [45.36413940519089]
本稿では,5歳児のイタリア語話者の言語入力を模倣したデータに基づいて学習したBAMBI(Baby Language Models Boostrapped for Italian)について述べる。
BAMBIモデルは、受信したモデルのトレーニング入力量を考慮して、言語モデルを評価するために特別に設計されたベンチマークを使用してテストされる。
論文 参考訳(メタデータ) (2025-03-12T15:36:50Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Can training neural language models on a curriculum with developmentally
plausible data improve alignment with human reading behavior? [0.2745342790938508]
本稿では,より発達的に妥当なデータを用いたモデル学習により,経験的行動とモデル予測行動の相違が最小化できる範囲について検討する。
我々は,BabyLMの「限定小」データセットを用いて教師言語モデルを訓練し,これらの教師モデルからの文レベル推定を用いてカリキュラムの作成を行った。
モデルが学習データから言語知識を習得し易いという仮の証拠が得られた。
論文 参考訳(メタデータ) (2023-11-30T18:03:58Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。