論文の概要: Decomposing the Depth Profile of Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.17177v1
- Date: Sun, 19 Apr 2026 00:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.37194
- Title: Decomposing the Depth Profile of Fine-Tuning
- Title(参考訳): ファインチューニングの深さプロファイルの分解
- Authors: Jayadev Billa,
- Abstract要約: ファインチューニングは、トレーニング済みのネットワークを新しい目的に適応させる。
15個のモデルにまたがる240個の微調整ランにおける表現的変化の深さプロファイルを測定した。
局所性, 表現的変化の深さ勾配を, 成分がスケール依存の複合現象として扱う。
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning adapts pretrained networks to new objectives. Whether the resulting depth profile of representational change reflects an intrinsic property of the model or the magnitude of gradient flow has not been tested directly. We measure this profile across 240 fine-tuning runs spanning 15 models in four architecture families (encoder and decoder transformers, a state-space model, and an RNN) at scales from 125M to 6.9B parameters. Representational change concentrates in output-proximal layers in every standard-training run except one. We apply a per-layer control that equalizes $\|ΔW\|/\|W\|$ across layers after each optimizer step. Under this control, the profile persists in some conditions and collapses in others. At 125M--350M, sequential-block architectures (BERT, OPT, GPT-2) retain the slope across tested objectives while parallel-block architectures (Pythia, CodeGen) retain it only for causal-language-modeling objectives. This architectural distinction narrows at 1.3B--1.4B, where both block types show positive equal-step slopes for CausalLM. Under standard training, profile shape is described by two additional axes: steepness tracks a training-free objective distance at initialization, and profile width is dominated by architecture. We treat the locality gradient, the depthwise slope of representational change, as a composite phenomenon whose components are scale-dependent.
- Abstract(参考訳): ファインチューニングは、トレーニング済みのネットワークを新しい目的に適応させる。
結果の表現的変化の深さプロファイルがモデル固有の特性を反映しているか、勾配流の大きさを直接的にテストしていない。
125Mから6.9Bのパラメータで4つのアーキテクチャファミリ(エンコーダとデコーダ変換器、状態空間モデル、RNN)で15のモデルにまたがる240の微調整実行を計測する。
表現的変化は1つを除くすべての標準学習実行における出力近位層に集中する。
各最適化ステップの後、各層に$\|ΔW\|/\|W\|$を等化する層間制御を適用する。
この制御の下で、プロファイルはいくつかの条件で持続し、他の条件で崩壊する。
125M-350Mでは、シーケンシャルブロックアーキテクチャ (BERT, OPT, GPT-2) はテスト対象のスロープを保ち、並列ブロックアーキテクチャ (Pythia, CodeGen) は因果言語モデリング目的のみに留まった。
このアーキテクチャの区別は1.3B--1.4Bで狭まり、どちらのブロックもCausalLMの正の等段傾斜を示す。
標準的なトレーニングでは、プロファイルの形状は2つの追加の軸によって記述される: 急勾配は初期化時にトレーニングなしの目標距離をトラックし、プロファイルの幅はアーキテクチャによって支配される。
局所性勾配, 表現的変化の深さ勾配を, 成分がスケール依存の複合現象として扱う。
関連論文リスト
- Auto-Unrolled Proximal Gradient Descent: An AutoML Approach to Interpretable Waveform Optimization [1.9290392443571385]
本研究では、自動機械学習(AutoML)とモデルベースディープ展開(DU)を組み合わせて、無線ビームフォーミングと波形の最適化を行う。
我々は、反復勾配降下(PGD)アルゴリズムをディープニューラルネットワークに変換し、パラメータを所定のパラメータではなく学習する。
論文 参考訳(メタデータ) (2026-03-18T08:33:25Z) - Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales [0.0]
コンヒーレントな方向のみにおいてトランスフォーマー訓練軌道が発展することを示す。
共同作業では、同じスペクトル幾何学がグラッキングの早期警戒信号を提供する。
論文 参考訳(メタデータ) (2026-03-14T04:46:05Z) - Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles [74.32932832937618]
我々は、微調整の前に幾何学学習を前もってロードする幾何学事前学習フレームワークであるtextbfRigidSSL$(textitRigidity-Aware Self-Supervised Learning$)を紹介した。
フェーズI(RigidSSL-Perturb)は、AlphaFoldタンパク質構造データベースから432K構造から、シミュレートされた摂動を持つ幾何学的先行を学習する。
フェーズII(RigidSSL-MD)は、1.3K分子動力学軌道上のこれらの表現を洗練し、物理的に現実的な遷移を捉える。
論文 参考訳(メタデータ) (2026-03-02T21:32:30Z) - On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks [0.0]
教師なし幾何学的計量である有効次元が精度を強く予測することを示す。
ノイズによる幾何劣化は精度損失(r=-0.94, $p 10(9)$)を引き起こすが、PCAによる幾何改善はアーキテクチャ全体にわたる精度(95%のばらつきで-0.03pp)を維持する。
これらの結果は、有効次元が、ラベルなしで完全に計算されたニューラルネットワークの性能に関するドメインに依存しない予測および因果情報を提供することを証明している。
論文 参考訳(メタデータ) (2026-01-28T04:33:41Z) - Parameter-Efficient Conditioning for Material Generalization in Graph-Based Simulators [2.504298819189614]
グラフネットワークベースのシミュレータ(GNS)は、粒子ベースの物理学を学ぶ強力な可能性を示している。
既存のモデルは通常、単一の素材タイプのために訓練され、異なる振る舞いを一般化することができない。
本稿では,GNSモデルを材料パラメータに適応させるパラメータ効率条件付け機構を提案する。
論文 参考訳(メタデータ) (2025-11-07T17:55:35Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。