論文の概要: Transformative or Conservative? Conservation laws for ResNets and Transformers
- arxiv url: http://arxiv.org/abs/2506.06194v1
- Date: Fri, 06 Jun 2025 15:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.543391
- Title: Transformative or Conservative? Conservation laws for ResNets and Transformers
- Title(参考訳): トランスフォーマティブか保守的か? ResNet と Transformer の保存法
- Authors: Sibylle Marcotte, Rémi Gribonval, Gabriel Peyré,
- Abstract要約: 本稿では,近代建築の保全法則の導出と解析により,そのギャップを埋める。
まず、ReLU(あるいは線形)浅層ネットワークのような基本構造ブロックは、畳み込みの有無にかかわらず、容易に保存則を表現できることを示す。
次に、パラメータのサブセットにのみ依存する保存法則の概念を導入する。
- 参考スコア(独自算出の注目度): 28.287184613608435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While conservation laws in gradient flow training dynamics are well understood for (mostly shallow) ReLU and linear networks, their study remains largely unexplored for more practical architectures. This paper bridges this gap by deriving and analyzing conservation laws for modern architectures, with a focus on convolutional ResNets and Transformer networks. For this, we first show that basic building blocks such as ReLU (or linear) shallow networks, with or without convolution, have easily expressed conservation laws, and no more than the known ones. In the case of a single attention layer, we also completely describe all conservation laws, and we show that residual blocks have the same conservation laws as the same block without a skip connection. We then introduce the notion of conservation laws that depend only on a subset of parameters (corresponding e.g. to a pair of consecutive layers, to a residual block, or to an attention layer). We demonstrate that the characterization of such laws can be reduced to the analysis of the corresponding building block in isolation. Finally, we examine how these newly discovered conservation principles, initially established in the continuous gradient flow regime, persist under discrete optimization dynamics, particularly in the context of Stochastic Gradient Descent (SGD).
- Abstract(参考訳): 勾配流のトレーニング力学における保存法則はReLUや線形ネットワークに対してよく理解されているが、より実用的なアーキテクチャについてはほとんど研究されていない。
本稿では,現代建築における保全法則の導出と解析により,畳み込み型ResNetとTransformerネットワークに着目し,このギャップを埋める。
このため,ReLU(あるいは線形)浅層ネットワークのような基本構造ブロックは,畳み込みの有無にかかわらず,容易に保存法則を表現でき,既知のもの以外は含まないことを示す。
単一注意層の場合、すべての保存法則を完全に記述し、残余ブロックがスキップ接続なしで同じ保存法則を持つことを示す。
次に、パラメータのサブセットにのみ依存する保存法則の概念を導入する(例えば、一対の連続層、残留ブロック、または注意層に対応する)。
本研究では,このような法則の特性を分離した構造ブロックの解析に還元できることを実証する。
最後に、これらの新たに発見された保全原則が、最初は連続勾配流系で確立され、特にSGD(Stochastic Gradient Descent)の文脈において、離散的な最適化力学の下で持続するかを検討する。
関連論文リスト
- A Signed Graph Approach to Understanding and Mitigating Oversmoothing in GNNs [54.62268052283014]
署名されたグラフの枠組みに基づく統一的な理論的視点を示す。
既存の戦略の多くは、メッセージパッシングを変えて過度な操作に抵抗する負のエッジを暗黙的に導入している。
本稿では,ラベルや特徴の類似性に基づいて署名されたエッジを割り当てるプラグイン・アンド・プレイ方式であるStructure Balanced Propagation (SBP)を提案する。
論文 参考訳(メタデータ) (2025-02-17T03:25:36Z) - Keep the Momentum: Conservation Laws beyond Euclidean Gradient Flows [28.287184613608435]
運動量に基づく力学の保存則は時間的依存を示すことを示す。
また、勾配流から運動量力学へ遷移する際の「保存損失」も観察する。
この現象は非ユークリッド計量にも現れ、例えば非負行列因子化(NMF)に用いられる。
論文 参考訳(メタデータ) (2024-05-21T15:59:55Z) - Simple Cycle Reservoirs are Universal [0.358439716487063]
貯留層モデル(Reservoir model)は、トレーニング不能な入力と動的結合重みを固定したリカレントニューラルネットワークのサブクラスを形成する。
制限のない線形貯水池系を普遍的に近似できることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:35:59Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文 参考訳(メタデータ) (2022-10-18T17:30:02Z) - Accumulative reservoir construction: Bridging continuously relaxed and
periodically refreshed extended reservoirs [0.0]
本稿では, 拡張貯水池の部分的な更新を連続的に行う貯水池構築について紹介する。
これは、継続的(Lindblad)緩和と、最近導入された定期的なリフレッシュアプローチの両方のための統一されたフレームワークを提供する。
テンソルネットワークを含む,動作範囲がエラーや計算コストにどのように影響するかを示す。
論文 参考訳(メタデータ) (2022-10-10T17:59:58Z) - Orthogonalizing Convolutional Layers with the Cayley Transform [83.73855414030646]
直交に制約された畳み込み層をパラメータ化するための代替手法を提案し,評価する。
本手法は,大規模畳み込みにおいても直交性が高次に保たれることを示す。
論文 参考訳(メタデータ) (2021-04-14T23:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。