論文の概要: Beyond the Permutation Symmetry of Transformers: The Role of Rotation for Model Fusion
- arxiv url: http://arxiv.org/abs/2502.00264v1
- Date: Sat, 01 Feb 2025 01:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:28.245196
- Title: Beyond the Permutation Symmetry of Transformers: The Role of Rotation for Model Fusion
- Title(参考訳): 変圧器の変圧対称性を超えて--モデル融合における回転の役割
- Authors: Binchi Zhang, Zaiyi Zheng, Zhengzhang Chen, Jundong Li,
- Abstract要約: 変圧器のパラメータ空間対称性の新たな形式である回転対称性を導入する。
置換対称性とは異なり、回転対称性は連続領域で作用し、変圧器の同値集合を著しく拡大する。
モデル融合を強化するためのプラグアンドプレイモジュールとして理論的に最適なマッチングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 43.299430093251736
- License:
- Abstract: Symmetry in the parameter space of deep neural networks (DNNs) has proven beneficial for various deep learning applications. A well-known example is the permutation symmetry in Multi-Layer Perceptrons (MLPs), where permuting the rows of weight matrices in one layer and applying the inverse permutation to adjacent layers yields a functionally equivalent model. While permutation symmetry fully characterizes the equivalence set for MLPs, its discrete nature limits its utility for transformers. In this paper, we introduce rotation symmetry, a novel form of parameter space symmetry for transformers that generalizes permutation symmetry by rotating parameter matrices in self-attention layers. Unlike permutation symmetry, rotation symmetry operates in a continuous domain, thereby significantly expanding the equivalence set for transformers. Based on this property, we propose a theoretically optimal parameter matching algorithm as a plug-and-play module to enhance model fusion. We evaluate our approach using pre-trained transformers across diverse natural language and vision tasks. Experimental results demonstrate that our rotation symmetry-based matching algorithm substantially improves model fusion, highlighting the potential of parameter space symmetry to facilitate model fusion. Our code is available on https://github.com/zhengzaiyi/RotationSymmetry.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のパラメータ空間における対称性は、様々なディープラーニングアプリケーションに有用であることが証明されている。
良く知られた例として、多層パーセプトロン(MLP)の置換対称性があり、一層に重み行列列を置換し、隣接する層に逆置換を適用すると、機能的に等価なモデルが得られる。
置換対称性は MLP の同値集合を完全に特徴づけるが、その離散的性質は変圧器の効用を制限する。
本稿では,自己アテンション層における回転パラメータ行列による置換対称性を一般化する変圧器の新しいパラメータ空間対称性である回転対称性を紹介する。
置換対称性とは異なり、回転対称性は連続領域で作用し、変圧器の同値集合を著しく拡大する。
この特性に基づいて,モデル融合を強化するためのプラグアンドプレイモジュールとして,理論的に最適なパラメータマッチングアルゴリズムを提案する。
各種自然言語および視覚タスクを対象とした事前学習型トランスフォーマーによるアプローチの評価を行った。
実験により,我々の回転対称性に基づくマッチングアルゴリズムはモデル融合を大幅に改善し,モデル融合を促進するパラメータ空間対称性のポテンシャルを強調した。
私たちのコードはhttps://github.com/zhengzaiyi/RotationSymmetryで公開しています。
関連論文リスト
- Approximation of Permutation Invariant Polynomials by Transformers: Efficient Construction in Column-Size [6.9060054915724]
トランスフォーマー(Transformer)は、様々な領域で顕著なパフォーマンスを示すニューラルネットワークの一種である。
本研究では,変圧器の柱対称近似能力について検討した。
論文 参考訳(メタデータ) (2025-02-17T05:56:11Z) - Variational Inference Failures Under Model Symmetries: Permutation Invariant Posteriors for Bayesian Neural Networks [43.88179780450706]
重み空間置換対称性が変分推論に与える影響について検討する。
置換不変変分後部を構築するための対称対称性機構を考案する。
本研究は, 対称性分布が真の後部と厳密に適合していること, 元のELBO目標を用いてトレーニングできること, を示す。
論文 参考訳(メタデータ) (2024-08-10T09:06:34Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Learning Probabilistic Symmetrization for Architecture Agnostic Equivariance [16.49488981364657]
群対称性を持つ学習関数における同変アーキテクチャの限界を克服する新しい枠組みを提案する。
我々は、不変量や変圧器のような任意の基底モデルを使用し、それを与えられた群に同変するように対称性付けする。
実証実験は、調整された同変アーキテクチャに対する競争結果を示す。
論文 参考訳(メタデータ) (2023-06-05T13:40:54Z) - Oracle-Preserving Latent Flows [58.720142291102135]
我々はラベル付きデータセット全体にわたって複数の非自明な連続対称性を同時に発見するための方法論を開発する。
対称性変換と対応するジェネレータは、特別に構築された損失関数で訓練された完全連結ニューラルネットワークでモデル化される。
この研究における2つの新しい要素は、縮小次元の潜在空間の使用と、高次元のオラクルに関して不変な変換への一般化である。
論文 参考訳(メタデータ) (2023-02-02T00:13:32Z) - Deep Learning Symmetries and Their Lie Groups, Algebras, and Subalgebras
from First Principles [55.41644538483948]
ラベル付きデータセットに存在する連続した対称性群の検出と同定のためのディープラーニングアルゴリズムを設計する。
完全に接続されたニューラルネットワークを用いて、変換対称性と対応するジェネレータをモデル化する。
また,Lie群とその性質の数学的研究に機械学習アプローチを使うための扉を開く。
論文 参考訳(メタデータ) (2023-01-13T16:25:25Z) - Learning Symmetric Embeddings for Equivariant World Models [9.781637768189158]
入力空間(例えば画像)を符号化する学習対称埋め込みネットワーク(SEN)を提案する。
このネットワークは、同変のタスクネットワークでエンドツーエンドにトレーニングして、明示的に対称な表現を学ぶことができる。
実験により、SENは複素対称性表現を持つデータへの同変ネットワークの適用を促進することを示した。
論文 参考訳(メタデータ) (2022-04-24T22:31:52Z) - Meta-Learning Symmetries by Reparameterization [63.85144439337671]
データから対応するパラメータ共有パターンを学習し、等価性をネットワークに学習し、符号化する手法を提案する。
本実験は,画像処理タスクで使用される共通変換に等価性をエンコードして自動的に学習できることを示唆する。
論文 参考訳(メタデータ) (2020-07-06T17:59:54Z) - Inverse Learning of Symmetries [71.62109774068064]
2つの潜在部分空間からなるモデルで対称性変換を学ぶ。
我々のアプローチは、情報ボトルネックと連続的な相互情報正規化器の組み合わせに基づいています。
我々のモデルは, 人工的および分子的データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-02-07T13:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。