論文の概要: Readability $\ne$ Learnability: Rethinking the Role of Simplicity in Training Small Language Models
- arxiv url: http://arxiv.org/abs/2510.13915v1
- Date: Wed, 15 Oct 2025 08:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.539043
- Title: Readability $\ne$ Learnability: Rethinking the Role of Simplicity in Training Small Language Models
- Title(参考訳): 可読性$$\ne$学習性:小言語モデルの訓練における単純さの役割を再考する
- Authors: Ivan Lee, Taylor Berg-Kirkpatrick,
- Abstract要約: 近年の研究では、非常に小さな言語モデル(SLM)が、TinyStoriesのような子供指向コーパスで訓練されたときに驚くほど一貫性のあるテキストを生成することが示唆されている。
これらの知見は、可読性がそのような能力の実現に重要な役割を果たしている証拠として解釈されている。
一致した構造を持つ合成データセットを構成するが、可読性が異なるため、可読性だけではSLMのコヒーレンスや学習効率を予測できない。
- 参考スコア(独自算出の注目度): 33.13548175654642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies suggest that very small language models (SLMs) can generate surprisingly coherent text when trained on simplified, child-directed corpora such as TinyStories. These findings have been interpreted as evidence that readability -- characterized by accessible vocabulary, familiar narrative structure, and simple syntax -- plays a key role in enabling such capabilities to emerge. In this paper, we challenge that interpretation. We construct synthetic datasets with matched structure but varied readability, and find that readability alone does not predict coherence or learning efficiency in SLMs. Models trained on complex, adult-level text perform comparably to those trained on simplified language, and even exhibit faster development of coherence during training. Instead, we show that statistical simplicity, as measured by n-gram diversity, is a stronger predictor of learnability. Our findings caution against the growing trend of anthropomorphizing language model training -- drawing parallels to human cognitive development without empirical basis -- and argue for more precise reasoning about what properties actually support capability emergence in small models.
- Abstract(参考訳): 近年の研究では、非常に小さな言語モデル(SLM)が、TinyStoriesのようなシンプルで子指向のコーパスで訓練されたときに驚くほど一貫性のあるテキストを生成することが示唆されている。
これらの発見は、アクセシブルな語彙、よく知られた物語構造、単純な構文によって特徴づけられる可読性が、そのような能力の実現に重要な役割を担っているという証拠として解釈されている。
本稿では,その解釈に挑戦する。
一致した構造を持つ合成データセットを構成するが、可読性が異なるため、可読性だけではSLMのコヒーレンスや学習効率を予測できない。
複雑な成人レベルのテキストで訓練されたモデルは、単純化された言語で訓練されたモデルと同等に動作し、訓練中のコヒーレンスの開発がより高速になる。
その代わり、n-gramの多様性によって測定される統計的単純さは、学習可能性のより強い予測因子であることを示す。
我々の研究は、人為的な言語モデルトレーニング(経験的基礎を持たない人間の認知発達と平行な関係)の増加傾向に注意し、小さなモデルにおいて、どのような特性が実際に能力の出現をサポートするかについてより正確な推論を主張する。
関連論文リスト
- Schema for In-Context Learning [0.7850388075652649]
In-context Learning (ICL) は、実演例に条件付けすることで、言語モデルが新しいタスクに適応できるようにする。
CONTEXT(SA-ICL)におけるSCHEMAの導入
この枠組みは, 先行事例から, 推論過程に対する認知の構成要素の表現を抽出する。
SA-ICLは、単一の実演例が高品質である場合、パフォーマンスを36.19パーセントまで継続的に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-14T21:00:15Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Verbalized Probabilistic Graphical Modeling [8.524824578426962]
本稿では,自然言語における確率的グラフモデル (PGM) の重要な原理をシミュレートするために,動詞型確率的グラフィカルモデリング (vPGM) を提案する。
vPGMは専門家主導のモデル設計をバイパスし、仮定やデータ不足のシナリオに適している。
以上の結果から,本モデルは信頼性校正とテキスト生成品質を効果的に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。