論文の概要: Generalized Linear Mode Connectivity for Transformers
- arxiv url: http://arxiv.org/abs/2506.22712v1
- Date: Sat, 28 Jun 2025 01:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.526318
- Title: Generalized Linear Mode Connectivity for Transformers
- Title(参考訳): 変圧器の一般化線形モード接続性
- Authors: Alexander Theus, Alessandro Cabodi, Sotiris Anagnostidis, Antonio Orvieto, Sidak Pal Singh, Valentina Boeva,
- Abstract要約: 驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
- 参考スコア(独自算出の注目度): 87.32299363530996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the geometry of neural network loss landscapes is a central question in deep learning, with implications for generalization and optimization. A striking phenomenon is linear mode connectivity (LMC), where independently trained models can be connected by low- or zero-loss paths, despite appearing to lie in separate loss basins. However, this is often obscured by symmetries in parameter space -- such as neuron permutations -- which make functionally equivalent models appear dissimilar. Prior work has predominantly focused on neuron re-ordering through permutations, but such approaches are limited in scope and fail to capture the richer symmetries exhibited by modern architectures such as Transformers. In this work, we introduce a unified framework that captures four symmetry classes: permutations, semi-permutations, orthogonal transformations, and general invertible maps -- broadening the set of valid reparameterizations and subsuming many previous approaches as special cases. Crucially, this generalization enables, for the first time, the discovery of low- and zero-barrier linear interpolation paths between independently trained Vision Transformers and GPT-2 models. These results reveal deeper structure in the loss landscape and underscore the importance of symmetry-aware analysis for understanding model space geometry.
- Abstract(参考訳): ニューラルネットワークロスランドスケープの幾何学を理解することは、一般化と最適化に影響を及ぼすディープラーニングにおける中心的な問題である。
顕著な現象はリニアモード接続(LMC)であり、独立に訓練されたモデルは、別々の損失盆地にあるように見えるにもかかわらず、低損失経路またはゼロ損失経路で接続することができる。
しかし、これはしばしば、機能的に等価なモデルが異なるように見えるパラメータ空間の対称性(ニューロンの置換など)によって曖昧にされる。
以前の研究は主に置換によるニューロンの並べ替えに焦点が当てられていたが、そのようなアプローチはスコープが限られており、トランスフォーマーのようなモダンなアーキテクチャによって提示されるよりリッチな対称性を捉えられなかった。
本研究では、置換、半置換、直交変換、一般可逆写像の4つの対称性クラスを捉える統一的な枠組みを導入する。
この一般化は、独立に訓練されたビジョントランスフォーマーとGPT-2モデルの間で、初めて低障壁とゼロバリア線形補間経路の発見を可能にする。
これらの結果は損失ランドスケープのより深い構造を明らかにし、モデル空間幾何学の理解における対称性を考慮した解析の重要性を浮き彫りにしている。
関連論文リスト
- Relative Representations: Topological and Geometric Perspectives [53.88896255693922]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。
相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。
第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:09:22Z) - EqNIO: Subequivariant Neural Inertial Odometry [33.96552018734359]
重力ベクトルの周りで回転すると、IMUデータは等変的に変形し、重力に平行な任意の平面に対して反射することを示す。
そして、IMUデータをこのフレームにマッピングし、既製の慣性オドメトリーネットワークで直接使用できる不変な正準化を実現する。
論文 参考訳(メタデータ) (2024-08-12T17:42:46Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Regularization, early-stopping and dreaming: a Hopfield-like setup to
address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。
この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文 参考訳(メタデータ) (2023-08-01T15:04:30Z) - Implicit Balancing and Regularization: Generalization and Convergence
Guarantees for Overparameterized Asymmetric Matrix Sensing [28.77440901439686]
最近の一連の論文は、非ランダムな正準決定(PSD)行列センシング問題に対して、この役割を一般化し始めている。
本稿では,小さなランダムな測定から得られる勾配降下の軌跡が,どちらも地球規模で良好である解へと移動することを示す。
論文 参考訳(メタデータ) (2023-03-24T19:05:52Z) - Oracle-Preserving Latent Flows [58.720142291102135]
我々はラベル付きデータセット全体にわたって複数の非自明な連続対称性を同時に発見するための方法論を開発する。
対称性変換と対応するジェネレータは、特別に構築された損失関数で訓練された完全連結ニューラルネットワークでモデル化される。
この研究における2つの新しい要素は、縮小次元の潜在空間の使用と、高次元のオラクルに関して不変な変換への一般化である。
論文 参考訳(メタデータ) (2023-02-02T00:13:32Z) - Inverse Learning of Symmetries [71.62109774068064]
2つの潜在部分空間からなるモデルで対称性変換を学ぶ。
我々のアプローチは、情報ボトルネックと連続的な相互情報正規化器の組み合わせに基づいています。
我々のモデルは, 人工的および分子的データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-02-07T13:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。