論文の概要: Only Large Weights (And Not Skip Connections) Can Prevent the Perils of Rank Collapse
- arxiv url: http://arxiv.org/abs/2505.16284v1
- Date: Thu, 22 May 2025 06:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.087697
- Title: Only Large Weights (And Not Skip Connections) Can Prevent the Perils of Rank Collapse
- Title(参考訳): 大きめのウェイト(そしてスキップ接続なし)だけは、ランク崩壊の危険性を防ぐことができる
- Authors: Josh Alman, Zhao Song,
- Abstract要約: Alman and Song NeurIPS 2023] と[Alman and Song NeurIPS 2024] によって始められた一連の研究は、モデル重量が小さければ二次時間が必要であることを示した。
本稿では,層崩壊と呼ばれる表現力の強い排除を避けるために,大きな重みが必要であることを示す。
- 参考スコア(独自算出の注目度): 10.88046646153971
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Attention mechanisms lie at the heart of modern large language models (LLMs). Straightforward algorithms for forward and backward (gradient) computation take quadratic time, and a line of work initiated by [Alman and Song NeurIPS 2023] and [Alman and Song NeurIPS 2024] has shown that quadratic time is necessary unless the model weights are small, in which case almost linear time algorithms are possible. In this paper, we show that large weights are necessary to avoid a strong preclusion to representational strength we call layer collapse, which means that the entire network can be approximated well by a network with only a single layer. Thus, the quadratic running time of attention is unavoidable for expressive transformers. The notion of layer collapse that we introduce is a variant on the notion of rank collapse from the work of [Dong, Cordonnier, and Loukas ICML 2021]. They showed that in Self Attention Networks with small weights and with skip connections, rank collapse must occur. This is typically interpreted as justifying the necessity of skip connections in expressive networks. However, our result shows that even with skip connections, if the weights are small, then layer collapse still occurs. Thus, only large weights, and not skip connections, can prevent these representational weaknesses.
- Abstract(参考訳): 注意機構は現代の大規模言語モデル(LLM)の中心にある。
前向きおよび後向き(漸進)の計算には2次時間を要し、[Alman and Song NeurIPS 2023] と [Alman and Song NeurIPS 2024] によって開始された一連の作業により、モデル重みが小さくなければ2次時間が必要であることが示されている。
本稿では,層崩壊と呼ぶ表現力の強い排除を回避するために,大きな重み付けが必要であることを示し,ネットワーク全体を1層のみのネットワークで近似できることを示す。
したがって、注意の二次走行時間は表現変換器では避けられない。
私たちが導入した層崩壊の概念は[Dong, Cordonnier, Loukas ICML 2021]の業績からランク崩壊の概念の変種である。
彼らは、小さな重みとスキップ接続を持つセルフアテンションネットワークでは、ランク崩壊が発生しなければならないことを示した。
これは一般的に、表現力のあるネットワークにおけるスキップ接続の必要性を正当化するものとして解釈される。
しかし, この結果から, スキップ接続であっても, 重みが小さい場合, 層崩壊が発生することが示唆された。
したがって、大きな重みだけが接続をスキップせず、これらの表現上の弱点を防ぐことができる。
関連論文リスト
- Contextual Bandit Optimization with Pre-Trained Neural Networks [0.0]
より小さなモデルの体制において、事前学習がいかに役立つかを検討する。
最後の層の次元と作用数$K$が水平線$T$よりもはるかに小さいとき、E2TCのサブ線形後悔を示す。
弱い訓練体制では、最後の層のみが学習されると、問題は不特定な線形バンディットへと減少する。
論文 参考訳(メタデータ) (2025-01-09T10:21:19Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers [3.686808512438363]
ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。
我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。
外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - Fast Conditional Network Compression Using Bayesian HyperNetworks [54.06346724244786]
条件付き圧縮問題を導入し、それに取り組むための高速なフレームワークを提案する。
問題は、トレーニング済みの大規模ニューラルネットワークをターゲットコンテキストに応じて最適な小さなネットワークに素早く圧縮する方法である。
提案手法は, ベースライン方式よりもはるかに小型の圧縮ネットワークを高速に生成できる。
論文 参考訳(メタデータ) (2022-05-13T00:28:35Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。