論文の概要: Do We Really Need Permutations? Impact of Width Expansion on Linear Mode Connectivity
- arxiv url: http://arxiv.org/abs/2510.08023v1
- Date: Thu, 09 Oct 2025 09:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.000004
- Title: Do We Really Need Permutations? Impact of Width Expansion on Linear Mode Connectivity
- Title(参考訳): 置換は本当に必要か? : 幅拡大が線形モード接続性に及ぼす影響
- Authors: Akira Ito, Masanori Yamada, Daiki Chijiwa, Atsutoshi Kumagai,
- Abstract要約: 置換がなくても、単にモデルを拡張すれば、線形モード接続を実現するのに十分であることを示す。
階層的に指数関数的に重み付け接続(LEWC)は、マージされたモデルの各レイヤの出力は、元のモデルの対応するレイヤの出力の指数的に重み付けされた和として表すことができることを述べる。
- 参考スコア(独自算出の注目度): 21.238269063881614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Ainsworth et al. empirically demonstrated that, given two independently trained models, applying a parameter permutation that preserves the input-output behavior allows the two models to be connected by a low-loss linear path. When such a path exists, the models are said to achieve linear mode connectivity (LMC). Prior studies, including Ainsworth et al., have reported that achieving LMC requires not only an appropriate permutation search but also sufficiently wide models (e.g., a 32 $\times$ width multiplier for ResNet-20). This is broadly believed to be because increasing the model width ensures a large enough space of candidate permutations, increasing the chance of finding one that yields LMC. In this work, we empirically demonstrate that, even without any permutations, simply widening the models is sufficient for achieving LMC when using a suitable softmax temperature calibration. We further explain why this phenomenon arises by analyzing intermediate layer outputs. Specifically, we introduce layerwise exponentially weighted connectivity (LEWC), which states that the output of each layer of the merged model can be represented as an exponentially weighted sum of the outputs of the corresponding layers of the original models. Consequently the merged model's output matches that of an ensemble of the original models, which facilitates LMC. To the best of our knowledge, this work is the first to show that widening the model not only facilitates nonlinear mode connectivity, as suggested in prior research, but also significantly increases the possibility of achieving linear mode connectivity.
- Abstract(参考訳): 近年、Ainsworthらは、2つの独立に訓練されたモデルが与えられたとき、入力-出力の挙動を保存するパラメータ置換を適用することで、2つのモデルを低損失線形経路で接続できることを実証的に証明した。
そのような経路が存在する場合、モデルはリニアモード接続(LMC)を実現するという。
Ainsworthらを含む以前の研究では、LCCを達成するには適切な置換探索だけでなく、十分に広いモデルが必要であると報告されている(例えば、ResNet-20の32$\times$ width multiplier)。
これは、モデル幅を増大させることで、候補置換の十分なスペースが確保され、LCCが得られるものを見つける機会が増加するためであると考えられている。
本研究は, 置換がなくても, 適切なソフトマックス温度キャリブレーションを用いる場合, LMCを実現するのに, モデルを広げるだけで十分であることを示す。
さらに、この現象がなぜ中間層出力を解析して起こるのかを解説する。
具体的には、階層的に指数関数的に重み付けされた接続(LEWC)を導入し、この結合モデルの各レイヤの出力は、原モデルの対応するレイヤの出力の指数的に重み付けされた和として表現できることを示す。
その結果、マージされたモデルの出力は元のモデルのアンサンブルと一致し、LCCを促進する。
我々の知る限り、この研究は、モデルの拡張が非線形モード接続を促進するだけでなく、線形モード接続の実現可能性を大幅に向上させることを示す最初のものである。
関連論文リスト
- SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Analysis of Linear Mode Connectivity via Permutation-Based Weight Matching: With Insights into Other Permutation Search Methods [14.96239541426242]
We show that permutations found by WM have not significantly reduce the $L2$ distance between two models。
この発見は、WM によって発見された置換が、主にモデル全体の大きな特異値に付随する特異ベクトルの方向を一致させることを示している。
本稿では、特異ベクトルの観点でアクティベーションマッチング(AM)を解析し、AMの原理がWMの原理と同一であることを示す。
論文 参考訳(メタデータ) (2024-02-06T14:53:28Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。