論文の概要: Nexusformer: Nonlinear Attention Expansion for Stable and Inheritable Transformer Scaling
- arxiv url: http://arxiv.org/abs/2604.19147v1
- Date: Tue, 21 Apr 2026 06:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.65988
- Title: Nexusformer: Nonlinear Attention Expansion for Stable and Inheritable Transformer Scaling
- Title(参考訳): Nexusformer: 安定かつ継承可能なトランススケーリングのための非線形アテンション拡張
- Authors: Weijie Zhao, Mingquan Liu, Bolun Wang, Simo Wu, Nuobei Xie, Rui-Jie Zhu, Peng Zhou,
- Abstract要約: 線形$Q/K/VプロジェクションをNexus-Rank層に置き換えるNexusformerを導入する。
新しい容量は、事前訓練された知識を保持するゼロdブロックを介して2つの軸に沿って注入することができる。
言語モデリングと推論の実験は、NexusformerがTokenformerのパープレキシティベンチマークと一致していることを示している。
- 参考スコア(独自算出の注目度): 9.458812631271009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling Transformers typically necessitates training larger models from scratch, as standard architectures struggle to expand without discarding learned representations. We identify the primary bottleneck in the attention mechanism's linear projections, which strictly confine feature extraction to fixed-dimensional subspaces, limiting both expressivity and incremental capacity. To address this, we introduce Nexusformer, which replaces linear $Q/K/V$ projections with a Nexus-Rank layer, a three-stage nonlinear mapping driven by dual activations in progressively higher dimensional spaces. This design overcomes the linearity constraint and enables lossless structured growth: new capacity can be injected along two axes via zero-initialized blocks that preserve pretrained knowledge. Experiments on language modeling and reasoning benchmarks demonstrate that Nexusformer matches Tokenformer's perplexity using up to 41.5\% less training compute during progressive scaling (240M to 440M). Furthermore, our analysis of growth dynamics reveals that zero initialization induces a stable convergence trajectory, allowing us to derive a geometric scaling law that accurately predicts performance across expansion scales.
- Abstract(参考訳): 標準アーキテクチャは学習した表現を捨てることなく拡張に苦労するため、トランスフォーマーのスケーリングは通常、スクラッチからより大きなモデルをトレーニングする必要がある。
注意機構の線形射影における主要なボトルネックを同定し, 特徴抽出を固定次元部分空間に厳密に限定し, 表現率とインクリメンタルキャパシティを両立させる。
これを解決するために,線形$Q/K/V$プロジェクションをNexus-Rank層に置き換えるNexusformerを導入する。
この設計は線形性制約を克服し、損失のない構造的成長を可能にする。
言語モデリングと推論ベンチマークの実験は、NexusformerがTokenformerの難易度にマッチすることを示した。
さらに, 成長力学解析の結果, ゼロ初期化は安定な収束軌道を誘導し, 拡張スケールにおける性能を正確に予測する幾何スケーリング法則を導出できることがわかった。
関連論文リスト
- Factor Graph-Based Shape Estimation for Continuum Robots via Magnus Expansion [19.359841144204115]
本文は,低次元幾何可変ひずみ(GVS)のパラメータ化係数を因子グラフフレームワーク内で推定することにより,両パラダイムの強度を組み合わせる。
ひずみ場のマグナス展開から導かれる新しい運動因子は、GVSひずみ係数とバックボーンポーズ変数をリンクする事前制約として閉形式ロッド幾何を符号化する。
結果の定式化は、連続体、確率的処理、因子グラフ推論の計算効率を保ちながら、モデルベース制御に直接対応可能なコンパクトな状態ベクトルを生成する。
論文 参考訳(メタデータ) (2026-04-17T01:52:07Z) - Anisotropic Permeability Tensor Prediction from Porous Media Microstructure via Physics-Informed Progressive Transfer Learning with Hybrid CNN-Transformer [0.0]
細孔スケールの微細構造画像からの透水性テンソルの予測は地下流れのモデリングには不可欠であるが、直接数値シミュレーションではサンプルあたりの時間を要する。
MaxViTハイブリッドCNN-Transformerアーキテクチャと、プログレッシブトランスファー学習と微分可能な物理的制約を組み合わせることで、このボトルネックを解決する物理インフォームドディープラーニングフレームワークが提示される。
論文 参考訳(メタデータ) (2026-03-18T09:41:01Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - Geometric Algebra Planes: Convex Implicit Neural Volumes [70.12234371845445]
GA-Planes はスパース低ランク係数と低分解能行列と等価であることを示す。
また,GA-Planeは既存の表現にも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-11-20T18:21:58Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Transformer as Linear Expansion of Learngene [38.16612771203953]
リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1Kの実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと対照的に、同等またはより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-09T17:01:18Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Second-order regression models exhibit progressive sharpening to the
edge of stability [30.92413051155244]
2次元の二次目標に対して、2階回帰モデルでは、安定性の端とわずかに異なる値に対して進行的なシャープ化を示すことを示す。
より高次元では、モデルはニューラルネットワークの特定の構造がなくても、概して同様の振る舞いを示す。
論文 参考訳(メタデータ) (2022-10-10T17:21:20Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。