論文の概要: Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm
- arxiv url: http://arxiv.org/abs/2402.03660v1
- Date: Tue, 6 Feb 2024 03:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:59:10.102023
- Title: Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm
- Title(参考訳): プレトレーニング・ファイバリングパラダイムにおけるクロスタスクリニアリティの創出
- Authors: Zhanpeng Zhou, Zijun Chen, Yilan Chen, Bo Zhang, Junchi Yan
- Abstract要約: クロスタスク線形性(CTL)は、共通の事前訓練されたチェックポイントからモデルで観察され、異なるタスクで微調整される。
CTLは、同じ事前訓練されたチェックポイントから始まる微調整されたモデルに対して一貫して発生する。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは基本的に線形写像として機能し、パラメータ空間から特徴空間へマッピングする。
- 参考スコア(独自算出の注目度): 51.01613218027083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pretraining-finetuning paradigm has become the prevailing trend in modern
deep learning. In this work, we discover an intriguing linear phenomenon in
models that are initialized from a common pretrained checkpoint and finetuned
on different tasks, termed as Cross-Task Linearity (CTL). Specifically, if we
linearly interpolate the weights of two finetuned models, the features in the
weight-interpolated model are approximately equal to the linear interpolation
of features in two finetuned models at each layer. Such cross-task linearity
has not been noted in peer literature. We provide comprehensive empirical
evidence supporting that CTL consistently occurs for finetuned models that
start from the same pretrained checkpoint. We conjecture that in the
pretraining-finetuning paradigm, neural networks essentially function as linear
maps, mapping from the parameter space to the feature space. Based on this
viewpoint, our study unveils novel insights into explaining model
merging/editing, particularly by translating operations from the parameter
space to the feature space. Furthermore, we delve deeper into the underlying
factors for the emergence of CTL, emphasizing the impact of pretraining.
- Abstract(参考訳): プレトレーニング・ファインタニングのパラダイムは、現代のディープラーニングの主流となっている。
本研究では,共通の事前学習済みチェックポイントから初期化され,異なるタスクで微調整されたモデルにおいて興味をそそる線形現象を,クロスタスク線形性(ctl)と呼ぶ。
具体的には、2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形補間とほぼ等しい。
このようなクロスタスク線形性はピア文学では注目されていない。
我々は、CTLが同じ事前訓練されたチェックポイントから始まる微調整モデルに対して一貫して発生することを示す包括的な実証的証拠を提供する。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは基本的に線形写像として機能し、パラメータ空間から特徴空間へマッピングする。
この観点から,本研究では,モデルマージ/編集について,特にパラメータ空間から特徴空間へ操作を変換することによって,新たな知見を提示する。
さらに,CTLの出現の根底にある要因を深く掘り下げ,事前学習の影響を強調した。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Internal Representations of Vision Models Through the Lens of Frames on
Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。
私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。
ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文 参考訳(メタデータ) (2022-11-19T01:48:19Z) - Designing Universal Causal Deep Learning Models: The Case of
Infinite-Dimensional Dynamical Systems from Stochastic Analysis [3.5450828190071655]
因果作用素(COs)は、現代の分析において中心的な役割を果たす。
COを近似できるディープラーニング(DL)モデルを設計するための標準的なフレームワークはまだ存在しない。
本稿では、DLモデル設計フレームワークを導入することにより、このオープンな問題に対する「幾何学的認識」ソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。