論文の概要: Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers
- arxiv url: http://arxiv.org/abs/2512.17351v1
- Date: Fri, 19 Dec 2025 08:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.314139
- Title: Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers
- Title(参考訳): 言語モデルの物理: Part 4.1, アーキテクチャ設計とキヤノン層の魔法
- Authors: Zeyuan Allen-Zhu,
- Abstract要約: 我々は,コアモデル機能を分離し,評価する制御型合成事前学習タスクを導入する。
本フレームワークでは,隣接するトークン間の水平情報流を促進するCANON LAYERSを検出する。
これには、Canon層が推論の深さ(例えば、$2times$)を高める方法、推論の幅、知識操作などが含まれる。
- 参考スコア(独自算出の注目度): 21.6340059114965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding architectural differences in language models is challenging, especially at academic-scale pretraining (e.g., 1.3B parameters, 100B tokens), where results are often dominated by noise and randomness. To overcome this, we introduce controlled synthetic pretraining tasks that isolate and evaluate core model capabilities. Within this framework, we discover CANON LAYERS: lightweight architectural components -- named after the musical term "canon" -- that promote horizontal information flow across neighboring tokens. Canon layers compute weighted sums of nearby token representations and integrate seamlessly into Transformers, linear attention, state-space models, or any sequence architecture. We present 12 key results. This includes how Canon layers enhance reasoning depth (e.g., by $2\times$), reasoning breadth, knowledge manipulation, etc. They lift weak architectures like NoPE to match RoPE, and linear attention to rival SOTA linear models like Mamba2/GDN -- validated both through synthetic tasks and real-world academic-scale pretraining. This synthetic playground offers an economical, principled path to isolate core model capabilities often obscured at academic scales. Equipped with infinite high-quality data, it may even PREDICT how future architectures will behave as training pipelines improve -- e.g., through better data curation or RL-based post-training -- unlocking deeper reasoning and hierarchical inference.
- Abstract(参考訳): 言語モデルにおけるアーキテクチャの違いを理解することは、特に学術規模の事前訓練(例えば、1.3Bパラメータ、100Bトークン)では困難である。
そこで本研究では,コアモデル機能を分離し,評価する合成事前学習タスクについて紹介する。
このフレームワーク内では、CANON LAYERSという、隣接するトークン間の水平情報フローを促進する軽量なアーキテクチャコンポーネントを発見します。
キヤノン層は、近くのトークン表現の重み付け和を計算し、トランスフォーマー、線形アテンション、状態空間モデル、あるいは任意のシーケンスアーキテクチャにシームレスに統合する。
12つの重要な結果が得られます。
これには、Canon層が推論の深さ(例:$2\times$)、推論の幅、知識操作などを拡張する方法が含まれる。
彼らは、NoPEのような弱いアーキテクチャをRoPEにマッチさせ、Mamba2/GDNのような競合するSOTAリニアモデルに線形に注意を払い、合成タスクと実世界の学術規模の事前トレーニングの両方を通じて検証した。
この合成遊び場は、しばしば学術規模で曖昧にされるコアモデル機能を分離するための経済的、原則化された経路を提供する。
例えば、より良いデータキュレーションやRLベースのポストトレーニングによって、より深い推論と階層的推論が解放される。
関連論文リスト
- Looking beyond the next token [75.00751370502168]
トレーニングデータシーケンスの再構成と処理により、モデルが真のデータ生成プロセスをより正確に模倣できるようになる、と我々は主張する。
本手法は, 長期的目標を追加費用なしで自然に生成することを可能にした。
論文 参考訳(メタデータ) (2025-04-15T16:09:06Z) - Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Adaptive Large Language Models By Layerwise Attention Shortcuts [46.76681147411957]
LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-17T03:46:01Z) - Wavelet GPT: Wavelet Inspired Large Language Models [1.2328446298523066]
大規模言語モデル(LLM)は、人工知能の新たな進歩の波を支えている。
本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。
我々は、テキスト、オーディオ、画像において、ほぼ2倍の速さで事前学習を行う。
論文 参考訳(メタデータ) (2024-09-04T03:17:19Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture
Design [3.04585143845864]
我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。
その後、アーキテクチャ定義自体の観点でエラーを説明し、アーキテクチャを変更するツールを開発します。
最初の大きな貢献は、ニューラルネットワークアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であることを示すことです。
論文 参考訳(メタデータ) (2021-05-25T20:47:43Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。