論文の概要: MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities
- arxiv url: http://arxiv.org/abs/2404.13322v1
- Date: Sat, 20 Apr 2024 08:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:29:41.206258
- Title: MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities
- Title(参考訳): MergeNet: 異種モデル、タスク、モダリティ間の知識マイグレーション
- Authors: Kunxi Li, Tianyu Zhan, Shengyu Zhang, Kun Kuang, Jiwei Li, Zhou Zhao, Fei Wu,
- Abstract要約: 異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
- 参考スコア(独自算出の注目度): 75.81899968485203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on heterogeneous knowledge transfer across entirely different model architectures, tasks, and modalities. Existing knowledge transfer methods (e.g., backbone sharing, knowledge distillation) often hinge on shared elements within model structures or task-specific features/labels, limiting transfers to complex model types or tasks. To overcome these challenges, we present MergeNet, which learns to bridge the gap of parameter spaces of heterogeneous models, facilitating the direct interaction, extraction, and application of knowledge within these parameter spaces. The core mechanism of MergeNet lies in the parameter adapter, which operates by querying the source model's low-rank parameters and adeptly learning to identify and map parameters into the target model. MergeNet is learned alongside both models, allowing our framework to dynamically transfer and adapt knowledge relevant to the current stage, including the training trajectory knowledge of the source model. Extensive experiments on heterogeneous knowledge transfer demonstrate significant improvements in challenging settings, where representative approaches may falter or prove less applicable.
- Abstract(参考訳): 本研究では, 全く異なるモデルアーキテクチャ, タスク, モダリティ間の異質な知識伝達に着目した。
既存の知識伝達方法(例えば、バックボーン共有、知識蒸留)は、しばしばモデル構造やタスク固有の機能/ラベル内の共有要素にヒンジし、複雑なモデルタイプやタスクへの転送を制限する。
これらの課題を克服するために、異種モデルのパラメータ空間のギャップを埋めることを学び、これらのパラメータ空間内での直接的な相互作用、抽出、知識の応用を容易にするMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリして、ターゲットモデルへのパラメータの識別とマッピングを順応的に学習する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、ソースモデルのトレーニング軌道知識を含む、現在のステージに関連する知識を動的に転送し、適応することができます。
不均一な知識伝達に関する大規模な実験は、代表的アプローチが干渉したり適用範囲を減らしたりすることの可能な、挑戦的な設定において顕著な改善を示す。
関連論文リスト
- Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。
実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。
様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T16:35:23Z) - Enhancing Accuracy in Generative Models via Knowledge Transfer [4.3108820946281945]
本研究では,Kullback-Leiblerの分散化など,分散指標下での伝達学習のための新しいフレームワークを提案する。
提案理論は,共有構造が目標タスクの生成精度を向上させることを示唆している。
論文 参考訳(メタデータ) (2024-05-27T05:10:49Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Beyond Convergence: Identifiability of Machine Learning and Deep
Learning Models [0.0]
本研究では,モデルパラメータ識別可能性の概念を,モーションセンサデータからのパラメータ推定に焦点をあてたケーススタディにより検討する。
我々は、質量、剛性、平衡脚長などの主観的パラメータを推定するために、ディープニューラルネットワークを用いる。
その結果、観測データから特定のパラメータを特定できるが、他のパラメータは未同定のままであることがわかった。
論文 参考訳(メタデータ) (2023-07-21T03:40:53Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Hub-Pathway: Transfer Learning from A Hub of Pre-trained Models [89.44031286278347]
本稿では,モデルハブからの知識伝達を可能にするハブパスウェイフレームワークを提案する。
提案するフレームワークは、目的のタスク固有の損失でエンドツーエンドにトレーニングすることができる。
コンピュータビジョンおよび強化学習タスクの実験結果は、このフレームワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-06-08T08:00:12Z) - Lifelong Infinite Mixture Model Based on Knowledge-Driven Dirichlet
Process [15.350366047108103]
生涯学習における最近の研究成果は、タスクの増加に対応するために、モデルの混合を成長させることが提案されている。
本研究では,データの確率的表現間の差分距離に基づいてリスク境界を導出することにより,生涯学習モデルの理論的解析を行う。
理論解析に着想を得て, 生涯無限混合モデル (LIMix) と呼ばれる新しい生涯学習手法を導入する。
論文 参考訳(メタデータ) (2021-08-25T21:06:20Z) - Probing transfer learning with a model of synthetic correlated datasets [11.53207294639557]
トランスファーラーニングはニューラルネットワークのサンプル効率を大幅に向上させることができる。
我々は、データセット間の相関をモデル化するためのフレームワークとして、合成データの解決可能なモデルを再考する。
本研究では,本モデルが実データを用いた伝達学習の多彩な特徴を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-06-09T22:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。