論文の概要: Efficient Multi-Source Knowledge Transfer by Model Merging
- arxiv url: http://arxiv.org/abs/2508.19353v1
- Date: Tue, 26 Aug 2025 18:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.393213
- Title: Efficient Multi-Source Knowledge Transfer by Model Merging
- Title(参考訳): モデルマージによる多元的知識伝達の効率化
- Authors: Marcin Osial, Bartosz Wójcik, Bartosz Zieliński, Sebastian Cygert,
- Abstract要約: マルチソーストランスファー学習は、適応性を高め、再学習コストを削減するための有望な道である。
既存のアプローチは本質的に粗い粒状であり、粒状知識抽出に必要な精度を欠いている。
これらの制約に対処するために,Singular Value Decomposition (SVD) を利用して,まず各ソースモデルを基本的なランク1のコンポーネントに分解する。
その後のアグリゲーションステージは、すべてのソースから最も有能なコンポーネントのみを選択し、その結果、前の効率性と精度の制限を克服する。
- 参考スコア(独自算出の注目度): 6.472612871493117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transfer learning is an advantageous strategy, it overlooks the opportunity to leverage knowledge from numerous available models online. Addressing this multi-source transfer learning problem is a promising path to boost adaptability and cut re-training costs. However, existing approaches are inherently coarse-grained, lacking the necessary precision for granular knowledge extraction and the aggregation efficiency required to fuse knowledge from either a large number of source models or those with high parameter counts. We address these limitations by leveraging Singular Value Decomposition (SVD) to first decompose each source model into its elementary, rank-one components. A subsequent aggregation stage then selects only the most salient components from all sources, thereby overcoming the previous efficiency and precision limitations. To best preserve and leverage the synthesized knowledge base, our method adapts to the target task by fine-tuning only the principal singular values of the merged matrix. In essence, this process only recalibrates the importance of top SVD components. The proposed framework allows for efficient transfer learning, is robust to perturbations both at the input level and in the parameter space (e.g., noisy or pruned sources), and scales well computationally.
- Abstract(参考訳): トランスファーラーニングは有利な戦略であるが、オンラインで利用可能な多くのモデルからの知識を活用する機会を見落としている。
このマルチソース転送学習問題に対処することは、適応性を高め、再学習コストを削減するための有望な道である。
しかし、既存のアプローチは本質的に粗い粒度であり、粒度の細かい知識抽出に必要な精度と、多数の情報源モデルや高いパラメータ数からの知識を融合させるために必要な集約効率が欠如している。
これらの制約に対処するため,Singular Value Decomposition (SVD) を利用して,まず各ソースモデルを基本的なランク1のコンポーネントに分解する。
その後のアグリゲーションステージは、すべてのソースから最も有能なコンポーネントのみを選択し、その結果、前の効率性と精度の制限を克服する。
合成知識ベースを最適に保存・活用するために,本手法は,統合行列の主特異値のみを微調整することにより,対象課題に適応する。
本質的に、このプロセスはトップSVDコンポーネントの重要性を再検討するだけである。
提案フレームワークは,効率的な伝達学習が可能であり,入力レベルとパラメータ空間(ノイズ,プルーニングソースなど)の摂動に頑健であり,計算量も良好である。
関連論文リスト
- Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation [45.72492804683268]
大規模言語モデル(LLM)は目覚ましい将来性を示しているが、従来の微調整によって継続的に改善することは困難である。
本稿では,多種多様なLCMから知識を適応的に選択・集約し,単一のより強力なモデルを構築するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T16:24:50Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - H-ensemble: An Information Theoretic Approach to Reliable Few-Shot
Multi-Source-Free Transfer [4.328706834250445]
本稿では,対象タスクに対するソースモデルの最適線形結合を学習するHアンサンブル(H-ensemble)というフレームワークを提案する。
H-アンサンブルは,1)少数の目標タスクに対する新しいMSF設定への適応性,2)理論的信頼性,3)解釈や適応が容易な軽量構造を特徴とする。
我々は,Hアンサンブルが最適なタスクアンサンブルを学習し,先行技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-19T17:39:34Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Distilling from Similar Tasks for Transfer Learning on a Budget [38.998980344852846]
転送学習は、ラベルの少ないトレーニングに有効なソリューションであるが、大きなベースモデルの計算的にコストのかかる微調整を犠牲にすることがしばしばある。
本稿では,半教師付きクロスドメイン蒸留による計算と精度のトレードオフを軽減することを提案する。
我々の手法は、ソースデータにアクセスする必要はなく、単にソースモデルの機能や擬似ラベルが必要なだけである。
論文 参考訳(メタデータ) (2023-04-24T17:59:01Z) - Partial Network Cloning [58.83278629019384]
PNCはソースネットワークから部分パラメトリックの「クローズニング」を実行し、クローン化されたモジュールをターゲットに注入する。
本手法はパラメータ調整法と比較して精度が5%向上し,局所性が50%向上した。
論文 参考訳(メタデータ) (2023-03-19T08:20:31Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。