論文の概要: Anatomy of Capability Emergence: Scale-Invariant Representation Collapse and Top-Down Reorganization in Neural Networks
- arxiv url: http://arxiv.org/abs/2602.15997v1
- Date: Tue, 17 Feb 2026 20:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.431962
- Title: Anatomy of Capability Emergence: Scale-Invariant Representation Collapse and Top-Down Reorganization in Neural Networks
- Title(参考訳): 能力創発の解剖: ニューラルネットワークにおけるスケール不変表現の崩壊とトップダウン再構成
- Authors: Jayadev Billa,
- Abstract要約: 5つのモデルスケール、120以上の出現事象を8つのアルゴリズムタスクと3つのPythia言語モデルで追跡する。
私たちの貢献は、予測ツールではなく、出現とその境界条件の幾何学的解剖である。
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capability emergence during neural network training remains mechanistically opaque. We track five geometric measures across five model scales (405K-85M parameters), 120+ emergence events in eight algorithmic tasks, and three Pythia language models (160M-2.8B). We find: (1) training begins with a universal representation collapse to task-specific floors that are scale-invariant across a 210X parameter range (e.g., modular arithmetic collapses to RANKME ~ 2.0 regardless of model size); (2) collapse propagates top-down through layers (32/32 task X model consistency), contradicting bottom-up feature-building intuition; (3) a geometric hierarchy in which representation geometry leads emergence (75-100% precursor rate for hard tasks), while the local learning coefficient is synchronous (0/24 precursor) and Hessian measures lag. We also delineate prediction limits: geometric measures encode coarse task difficulty but not fine-grained timing (within-class concordance 27%; when task ordering reverses across scales, prediction fails at 26%). On Pythia, global geometric patterns replicate but per-task precursor signals do not -- the precursor relationship requires task-training alignment that naturalistic pre-training does not provide. Our contribution is the geometric anatomy of emergence and its boundary conditions, not a prediction tool.
- Abstract(参考訳): ニューラルネットワークトレーニング中の能力の出現は、機械的に不透明である。
我々は,5つのモデルスケール(405K-85Mパラメータ),8つのアルゴリズムタスクにおける120以上の出現事象,および3つのPythia言語モデル(160M-2.8B)の5つの幾何学的測度を追跡する。
1)210Xパラメータ範囲でスケール不変なタスク固有フロア(例えば、モジュラー算術がRANKME ~2.0に分解される)へのトレーニングが始まり、(2)崩壊は層を通したトップダウンを伝播し(32/32タスクXモデル整合性)、ボトムアップ機能構築の直感に矛盾し、(3)表現幾何学が出現を導く幾何学的階層(ハードタスクの75-100%前駆率)、一方で局所学習係数は同期(0/24前駆率)であり、ヘシアン測度は遅延である。
幾何測度は粗いタスクの難易度を符号化するが、きめ細かなタイミングを符号化しない(クラス内では27%、スケールをまたいでタスクの順序が逆転すると26%で予測が失敗する)。
Pythiaでは、グローバルな幾何学的パターンが再現されるが、タスクごとの前兆信号は複製しない。
私たちの貢献は、予測ツールではなく、出現とその境界条件の幾何学的解剖である。
関連論文リスト
- Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文 参考訳(メタデータ) (2026-02-11T03:57:46Z) - The Geometry of Thought: How Scale Restructures Reasoning In Large Language Models [0.0]
我々は4つの領域(法、理、法、法、数学)にまたがる25,000以上の思考の連鎖を解析する
ニューラルスケーリング法則が一様能力よりもドメイン固有の相転移を引き起こすことが判明した。
論文 参考訳(メタデータ) (2026-01-19T19:53:37Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。
特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。
第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文 参考訳(メタデータ) (2025-11-30T18:57:25Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Primal-Dual Mesh Convolutional Neural Networks [62.165239866312334]
本稿では,グラフ・ニューラル・ネットワークの文献からトライアングル・メッシュへ引き起こされた原始双対のフレームワークを提案する。
提案手法は,3次元メッシュのエッジと顔の両方を入力として特徴付け,動的に集約する。
メッシュ単純化の文献から得られたツールを用いて、我々のアプローチに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2020-10-23T14:49:02Z) - Geometric Prediction: Moving Beyond Scalars [4.702729080310267]
等変ネットワークはそのような近似を必要とせずに実世界の幾何テンソルを予測できることを示す。
幾何学的予測問題として,重要な課題である生体分子構造の微細化の新たな定式化を提案する。
両方の設定において、我々の同変ネットワークは、小さなサンプルセットで訓練されたにもかかわらず、目に見えないシステムに一般化できることがわかった。
論文 参考訳(メタデータ) (2020-06-25T04:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。