論文の概要: Towards Understanding Feature Learning in Parameter Transfer
- arxiv url: http://arxiv.org/abs/2509.22056v1
- Date: Fri, 26 Sep 2025 08:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.305896
- Title: Towards Understanding Feature Learning in Parameter Transfer
- Title(参考訳): パラメータ伝達における特徴学習の理解に向けて
- Authors: Hua Yuan, Xuran Meng, Qiufeng Wang, Shiyu Xia, Ning Xu, Xu Yang, Jing Wang, Xin Geng, Yong Rui,
- Abstract要約: 上流モデルと下流モデルの両方がReLU畳み込みニューラルネットワーク(CNN)である設定を解析する。
我々は、継承されたパラメータが普遍的な知識のキャリアとしてどのように振る舞うかを特徴付け、目的のタスクに対するそれらの有益な影響を増幅する重要な要因を識別する。
我々の分析は、ある場合において、新しいモデルをスクラッチからトレーニングするよりも、パラメータの転送がターゲットタスクのテスト精度を低下させる可能性がある理由を洞察する。
- 参考スコア(独自算出の注目度): 47.063219231351916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter transfer is a central paradigm in transfer learning, enabling knowledge reuse across tasks and domains by sharing model parameters between upstream and downstream models. However, when only a subset of parameters from the upstream model is transferred to the downstream model, there remains a lack of theoretical understanding of the conditions under which such partial parameter reuse is beneficial and of the factors that govern its effectiveness. To address this gap, we analyze a setting in which both the upstream and downstream models are ReLU convolutional neural networks (CNNs). Within this theoretical framework, we characterize how the inherited parameters act as carriers of universal knowledge and identify key factors that amplify their beneficial impact on the target task. Furthermore, our analysis provides insight into why, in certain cases, transferring parameters can lead to lower test accuracy on the target task than training a new model from scratch. Numerical experiments and real-world data experiments are conducted to empirically validate our theoretical findings.
- Abstract(参考訳): パラメータ転送は、上流モデルと下流モデルの間でモデルパラメータを共有することによって、タスクとドメイン間の知識再利用を可能にする、トランスファーラーニングにおける中心的なパラダイムである。
しかし、上流モデルからのパラメータのサブセットのみを下流モデルに移す場合、そのような部分的パラメータの再利用が有用である条件と、その有効性を管理する要因について理論的には理解されていない。
このギャップに対処するために、上流モデルと下流モデルの両方がReLU畳み込みニューラルネットワーク(CNN)である設定を解析する。
この理論的枠組みの中では、継承されたパラメータが普遍的な知識のキャリアとしてどのように振る舞うかを特徴付け、目的のタスクに対するそれらの有益な影響を増幅する重要な要因を特定する。
さらに,パラメータの移動が,新しいモデルをスクラッチからトレーニングするよりも,目標タスクにおけるテスト精度を低下させる原因を考察した。
理論的知見を実証的に検証するために,数値実験と実世界のデータ実験を行った。
関連論文リスト
- Learning a Sparse Neural Network using IHT [1.124958340749622]
本稿では、高度なスパース最適化の分野、特に非線形微分可能関数に対処する分野の成果に依拠する。
NNのトレーニングの計算能力が増大するにつれて、モデルがより多くのパラメータで複雑になる。
本稿では,ニューラルネットワーク(NN)トレーニングの領域において,そのような収束の理論的前提が適用可能であるかを検討することを目的とする。
論文 参考訳(メタデータ) (2024-04-29T04:10:22Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Generative Causal Representation Learning for Out-of-Distribution Motion
Forecasting [13.99348653165494]
本稿では,分散シフト下での知識伝達を容易にするための生成因果学習表現を提案する。
ヒトの軌道予測モデルにおいて提案手法の有効性を評価する一方、GCRLは他の領域にも適用可能である。
論文 参考訳(メタデータ) (2023-02-17T00:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。