論文の概要: Anatomical Heterogeneity in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2603.19348v1
- Date: Thu, 19 Mar 2026 16:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.822238
- Title: Anatomical Heterogeneity in Transformer Language Models
- Title(参考訳): 変圧器言語モデルにおける解剖学的不均一性
- Authors: Tomasz Wietrzykowski,
- Abstract要約: 現在のトランスフォーマー言語モデルは、すべての層にわたって均一な計算予算で訓練されている。
我々は、SmolLM2-135Mの実証分析により、この仮定に挑戦する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current transformer language models are trained with uniform computational budgets across all layers, implicitly assuming layer homogeneity. We challenge this assumption through empirical analysis of SmolLM2-135M, a 30-layer, 135M-parameter causal language model, using five diagnostic metrics: weight predictability (R2), ablation degradation, recovery speed, weight manipulation robustness, and structural analysis. We find profound anatomical heterogeneity: (1) Layer weights follow strong mathematical regularity (R2 = 0.91) with a universal oscillatory delta pattern (correlation ~= -0.50), yet predicted weights cause catastrophic failure due to nonlinear error accumulation. (2) Layer importance spans a 10^7 range, from a critical core (L8-11, up to +63,419% PPL degradation) to anti-layers (L14, L17) whose removal improves performance. (3) Recovery speed correlates with layer importance, indicating differential training requirements. (4) Only weight scaling (alpha = 0.9) preserves model quality among five tested manipulation strategies. (5) Growth Transformer Training, allocating budget by layer importance, achieves ~54% cost reduction. A proof-of-concept experiment confirms this: 4.7x lower validation loss than uniform training at identical parameter count, while being 13% faster.
- Abstract(参考訳): 現在のトランスフォーマー言語モデルは、すべての層にわたって均一な計算予算で訓練されており、レイヤの均一性を暗黙的に仮定している。
重み予測可能性 (R2) , アブレーション劣化, 回復速度, 重量操作性, 構造解析の5つの診断指標を用いて, 30層, 135M の因果言語モデルである SmolLM2-135M を実験的に解析し, この仮定に挑戦する。
1) 重みは強い数学的規則性(R2 = 0.91)と普遍的な振動デルタパターン(相関 ~=-0.50)に従うが、予測された重みは非線形誤差の蓄積による破滅的な失敗を引き起こす。
2) 層の重要性は, 臨界コア (L8-11, 最大で+63,419% PPL分解) から, 除去性能が向上する反層 (L14, L17) まで, 10^7の範囲に及んでいる。
(3) 回復速度はレイヤーの重要度と相関し, 異なる訓練条件を示す。
(4) 重量スケーリングのみ (alpha = 0.9) は5つの試験操作戦略のモデル品質を保っている。
(5) 成長トランスフォーマートレーニングは、重層的に予算を割り当て、約54%のコスト削減を実現している。
概念実証実験では、同じパラメータ数での均一なトレーニングよりも検証損失が4.7倍少なく、13%高速であることが確認されている。
関連論文リスト
- Anisotropic Permeability Tensor Prediction from Porous Media Microstructure via Physics-Informed Progressive Transfer Learning with Hybrid CNN-Transformer [0.0]
細孔スケールの微細構造画像からの透水性テンソルの予測は地下流れのモデリングには不可欠であるが、直接数値シミュレーションではサンプルあたりの時間を要する。
MaxViTハイブリッドCNN-Transformerアーキテクチャと、プログレッシブトランスファー学習と微分可能な物理的制約を組み合わせることで、このボトルネックを解決する物理インフォームドディープラーニングフレームワークが提示される。
論文 参考訳(メタデータ) (2026-03-18T09:41:01Z) - Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles [74.32932832937618]
我々は、微調整の前に幾何学学習を前もってロードする幾何学事前学習フレームワークであるtextbfRigidSSL$(textitRigidity-Aware Self-Supervised Learning$)を紹介した。
フェーズI(RigidSSL-Perturb)は、AlphaFoldタンパク質構造データベースから432K構造から、シミュレートされた摂動を持つ幾何学的先行を学習する。
フェーズII(RigidSSL-MD)は、1.3K分子動力学軌道上のこれらの表現を洗練し、物理的に現実的な遷移を捉える。
論文 参考訳(メタデータ) (2026-03-02T21:32:30Z) - Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models [50.99097734404912]
RLフレンドリなモデルでは, クラス内コンパクト性やクラス間分離が, 正誤応答に対する確率割当に現れることを示す。
6つの数学ベンチマークによる実験では、すべてのモデルファミリで一貫した改善が見られ、AIME24では5.9ポイントまで向上した。
論文 参考訳(メタデータ) (2026-01-11T13:34:44Z) - Extended LSTM: Adaptive Feature Gating for Toxic Comment Classification [0.0]
xLSTMは、cosine-similarity gating、Adaptive Feature Prioritization、および原則付きクラス再バランスを統一するフレームワークである。
Jigsaw Toxic Commentベンチマークでは、xLSTMは96.4%の精度と0.88マクロF1に達し、BERTを33%、ID_hateカテゴリを28%上回っている。
論文 参考訳(メタデータ) (2025-10-19T21:50:04Z) - Feature Selection and Regularization in Multi-Class Classification: An Empirical Study of One-vs-Rest Logistic Regression with Gradient Descent Optimization and L1 Sparsity Constraints [0.0]
マルチクラスのワイン分類は、モデル精度、特徴次元、解釈可能性の基本的なトレードオフを示す。
本稿では,UCIワインデータセット上での1-vs-Restロジスティック回帰に関する総合的研究について述べる。
論文 参考訳(メタデータ) (2025-10-16T08:47:05Z) - Multimodal Bearing Fault Classification Under Variable Conditions: A 1D CNN with Transfer Learning [0.46085106405479537]
軸受の故障は、最大90%の機械的欠陥を構成する。
本研究では,マルチモーダル軸受断層分類手法を提案する。
1次元畳み込みニューラルネットワーク(1D CNN)フレームワーク内の振動と運動相電流信号に依存する。
論文 参考訳(メタデータ) (2025-02-23T19:11:25Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。