論文の概要: Towards Understanding Feature Learning in Parameter Transfer
- arxiv url: http://arxiv.org/abs/2509.22056v1
- Date: Fri, 26 Sep 2025 08:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.305896
- Title: Towards Understanding Feature Learning in Parameter Transfer
- Title(参考訳): パラメータ伝達における特徴学習の理解に向けて
- Authors: Hua Yuan, Xuran Meng, Qiufeng Wang, Shiyu Xia, Ning Xu, Xu Yang, Jing Wang, Xin Geng, Yong Rui,
- Abstract要約: 上流モデルと下流モデルの両方がReLU畳み込みニューラルネットワーク(CNN)である設定を解析する。
我々は、継承されたパラメータが普遍的な知識のキャリアとしてどのように振る舞うかを特徴付け、目的のタスクに対するそれらの有益な影響を増幅する重要な要因を識別する。
我々の分析は、ある場合において、新しいモデルをスクラッチからトレーニングするよりも、パラメータの転送がターゲットタスクのテスト精度を低下させる可能性がある理由を洞察する。
- 参考スコア(独自算出の注目度): 47.063219231351916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter transfer is a central paradigm in transfer learning, enabling knowledge reuse across tasks and domains by sharing model parameters between upstream and downstream models. However, when only a subset of parameters from the upstream model is transferred to the downstream model, there remains a lack of theoretical understanding of the conditions under which such partial parameter reuse is beneficial and of the factors that govern its effectiveness. To address this gap, we analyze a setting in which both the upstream and downstream models are ReLU convolutional neural networks (CNNs). Within this theoretical framework, we characterize how the inherited parameters act as carriers of universal knowledge and identify key factors that amplify their beneficial impact on the target task. Furthermore, our analysis provides insight into why, in certain cases, transferring parameters can lead to lower test accuracy on the target task than training a new model from scratch. Numerical experiments and real-world data experiments are conducted to empirically validate our theoretical findings.
- Abstract(参考訳): パラメータ転送は、上流モデルと下流モデルの間でモデルパラメータを共有することによって、タスクとドメイン間の知識再利用を可能にする、トランスファーラーニングにおける中心的なパラダイムである。
しかし、上流モデルからのパラメータのサブセットのみを下流モデルに移す場合、そのような部分的パラメータの再利用が有用である条件と、その有効性を管理する要因について理論的には理解されていない。
このギャップに対処するために、上流モデルと下流モデルの両方がReLU畳み込みニューラルネットワーク(CNN)である設定を解析する。
この理論的枠組みの中では、継承されたパラメータが普遍的な知識のキャリアとしてどのように振る舞うかを特徴付け、目的のタスクに対するそれらの有益な影響を増幅する重要な要因を特定する。
さらに,パラメータの移動が,新しいモデルをスクラッチからトレーニングするよりも,目標タスクにおけるテスト精度を低下させる原因を考察した。
理論的知見を実証的に検証するために,数値実験と実世界のデータ実験を行った。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Learning a Sparse Neural Network using IHT [1.124958340749622]
本稿では、高度なスパース最適化の分野、特に非線形微分可能関数に対処する分野の成果に依拠する。
NNのトレーニングの計算能力が増大するにつれて、モデルがより多くのパラメータで複雑になる。
本稿では,ニューラルネットワーク(NN)トレーニングの領域において,そのような収束の理論的前提が適用可能であるかを検討することを目的とする。
論文 参考訳(メタデータ) (2024-04-29T04:10:22Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Generative Causal Representation Learning for Out-of-Distribution Motion
Forecasting [13.99348653165494]
本稿では,分散シフト下での知識伝達を容易にするための生成因果学習表現を提案する。
ヒトの軌道予測モデルにおいて提案手法の有効性を評価する一方、GCRLは他の領域にも適用可能である。
論文 参考訳(メタデータ) (2023-02-17T00:30:44Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Transfer Learning for Linear Regression: a Statistical Test of Gain [2.1550839871882017]
Transfer Learningは、ソースデータセットから同様のターゲットデータセットへの知識の再利用を目指している。
新しい入力ベクトル$x$に対する転送の質は固有基底における表現に依存することが示されている。
微調整モデルがベースターゲットモデルよりも予測2次リスクが低いかどうかを予測するために統計的テストが構築される。
論文 参考訳(メタデータ) (2021-02-18T17:46:26Z) - On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。
実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文 参考訳(メタデータ) (2020-10-06T11:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。