論文の概要: Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm
- arxiv url: http://arxiv.org/abs/2402.03660v1
- Date: Tue, 6 Feb 2024 03:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:59:10.102023
- Title: Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm
- Title(参考訳): プレトレーニング・ファイバリングパラダイムにおけるクロスタスクリニアリティの創出
- Authors: Zhanpeng Zhou, Zijun Chen, Yilan Chen, Bo Zhang, Junchi Yan
- Abstract要約: クロスタスク線形性(CTL)は、共通の事前訓練されたチェックポイントからモデルで観察され、異なるタスクで微調整される。
CTLは、同じ事前訓練されたチェックポイントから始まる微調整されたモデルに対して一貫して発生する。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは基本的に線形写像として機能し、パラメータ空間から特徴空間へマッピングする。
- 参考スコア(独自算出の注目度): 51.01613218027083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pretraining-finetuning paradigm has become the prevailing trend in modern
deep learning. In this work, we discover an intriguing linear phenomenon in
models that are initialized from a common pretrained checkpoint and finetuned
on different tasks, termed as Cross-Task Linearity (CTL). Specifically, if we
linearly interpolate the weights of two finetuned models, the features in the
weight-interpolated model are approximately equal to the linear interpolation
of features in two finetuned models at each layer. Such cross-task linearity
has not been noted in peer literature. We provide comprehensive empirical
evidence supporting that CTL consistently occurs for finetuned models that
start from the same pretrained checkpoint. We conjecture that in the
pretraining-finetuning paradigm, neural networks essentially function as linear
maps, mapping from the parameter space to the feature space. Based on this
viewpoint, our study unveils novel insights into explaining model
merging/editing, particularly by translating operations from the parameter
space to the feature space. Furthermore, we delve deeper into the underlying
factors for the emergence of CTL, emphasizing the impact of pretraining.
- Abstract(参考訳): プレトレーニング・ファインタニングのパラダイムは、現代のディープラーニングの主流となっている。
本研究では,共通の事前学習済みチェックポイントから初期化され,異なるタスクで微調整されたモデルにおいて興味をそそる線形現象を,クロスタスク線形性(ctl)と呼ぶ。
具体的には、2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形補間とほぼ等しい。
このようなクロスタスク線形性はピア文学では注目されていない。
我々は、CTLが同じ事前訓練されたチェックポイントから始まる微調整モデルに対して一貫して発生することを示す包括的な実証的証拠を提供する。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは基本的に線形写像として機能し、パラメータ空間から特徴空間へマッピングする。
この観点から,本研究では,モデルマージ/編集について,特にパラメータ空間から特徴空間へ操作を変換することによって,新たな知見を提示する。
さらに,CTLの出現の根底にある要因を深く掘り下げ,事前学習の影響を強調した。
関連論文リスト
- In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - A Unified Analysis of Multi-task Functional Linear Regression Models
with Manifold Constraint and Composite Quadratic Penalty [0.0]
マルチタスク学習のパワーは、傾斜関数に付加的な構造を課すことによってもたらされる。
合成ペナルティは、多様体曲率の定量化に役立つ特定のノルムを誘導することを示す。
縮小ランクモデルとグラフラプラシア正規化モデルに統一収束上限を求め、特に適用する。
論文 参考訳(メタデータ) (2022-11-09T13:32:23Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Exploiting Spline Models for the Training of Fully Connected Layers in
Neural Network [0.0]
人工ニューラルネットワーク(ANN)の最も基本的なモジュールの1つである完全連結(FC)層は、しばしば訓練が困難で非効率であると考えられている。
fc層を訓練することの難しさを緩和するスプラインベースアプローチを提案する。
提案手法は計算コストを低減し,fc層の収束を加速し,モデルの解釈可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2021-02-12T14:36:55Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。