論文の概要: Training Language Models via Neural Cellular Automata
- arxiv url: http://arxiv.org/abs/2603.10055v1
- Date: Mon, 09 Mar 2026 18:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.599173
- Title: Training Language Models via Neural Cellular Automata
- Title(参考訳): ニューラルセルオートマタによる言語モデルの訓練
- Authors: Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal,
- Abstract要約: 本研究では, セルラーニューラルオートマトン(NCA)を用いて, 事前学習型大規模言語モデルのための合成非言語データを生成することを提案する。
NCAデータは、自然言語に類似した豊富な構造と統計を示しながら、制御可能で安価で大規模に生成できる。
164万個のNAAトークンの事前学習により、ダウンストリーム言語モデリングが最大6%向上し、コンバージェンスも最大1.6倍向上することがわかった。
- 参考スコア(独自算出の注目度): 8.490841030371453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.
- Abstract(参考訳): プレトレーニングは、ほとんどの表現と能力が取得されるときのように、大きな言語モデル(LLM)にとって不可欠である。
しかし、自然言語の事前学習には問題があり、高品質なテキストは有限であり、人間のバイアスを含み、推論と知識を結びつける。
自然言語は知性への唯一の道なのか?
そこで我々は,ニューラルセルオートマトン (NCA) を用いて,合成,非言語的データを生成することを提案する。
NCAデータは、自然言語に類似した豊富な時空間構造と統計を示しながら、制御可能で安価で大規模に生成できる。
164万個のNAAトークンの事前学習により、ダウンストリーム言語モデリングが最大6%向上し、コンバージェンスも最大1.6倍向上することがわかった。
驚くべきことに、これはCommon Crawlから1.6Bの自然言語トークンの事前トレーニングをより多くの計算量で上回っている。
これらの利得は、GSM8K、HumanEval、BigBench-Liteなどの推論ベンチマークにも転送される。
転送を駆動するものを調べると、注意層が最も転送可能であり、最適なNAAの複雑さはドメインによって異なることが分かります。
これらの結果から, 対象領域への合成分布の体系的チューニングが可能となった。
より広範に、我々の研究は、完全合成事前学習によるより効率的なモデルへの道を開く。
関連論文リスト
- Reflection Pretraining Enables Token-Level Self-Correction in Biological Sequence Models [82.79223371188756]
CoT(Chain-of-Thought)は、大規模言語モデルを用いた自然言語処理において、高度なタスク解決機能を備えている。
CoTをタンパク質やRNA言語モデルのような非自然言語ドメインに適用することは、まだ不可能である。
生物シークエンスモデルではじめて事前学習を導入し、中間的推論を行えるようにした。
論文 参考訳(メタデータ) (2025-12-24T05:25:17Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - DEPT: Decoupled Embeddings for Pre-training Language Models [16.84502158672086]
本稿では,通信効率の高い事前学習フレームワークDEPTを提案する。
本手法はトランス体から埋め込みを分離し,同時に複数のデータソース上で後者をトレーニングする。
我々は,10億規模モデルの最初の語彙に依存しないフェデレーション事前学習を通じて,DEPTのポテンシャルを実証する。
論文 参考訳(メタデータ) (2024-10-07T13:24:24Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。