Fugu-MT 論文翻訳(概要): MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities

論文の概要: MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities

arxiv url: http://arxiv.org/abs/2404.13322v1
Date: Sat, 20 Apr 2024 08:34:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 19:29:41.206258
Title: MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities
Title（参考訳）: MergeNet: 異種モデル、タスク、モダリティ間の知識マイグレーション
Authors: Kunxi Li, Tianyu Zhan, Shengyu Zhang, Kun Kuang, Jiwei Li, Zhou Zhao, Fei Wu,
Abstract要約: 異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。 MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。 MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
参考スコア（独自算出の注目度）: 75.81899968485203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we focus on heterogeneous knowledge transfer across entirely different model architectures, tasks, and modalities. Existing knowledge transfer methods (e.g., backbone sharing, knowledge distillation) often hinge on shared elements within model structures or task-specific features/labels, limiting transfers to complex model types or tasks. To overcome these challenges, we present MergeNet, which learns to bridge the gap of parameter spaces of heterogeneous models, facilitating the direct interaction, extraction, and application of knowledge within these parameter spaces. The core mechanism of MergeNet lies in the parameter adapter, which operates by querying the source model's low-rank parameters and adeptly learning to identify and map parameters into the target model. MergeNet is learned alongside both models, allowing our framework to dynamically transfer and adapt knowledge relevant to the current stage, including the training trajectory knowledge of the source model. Extensive experiments on heterogeneous knowledge transfer demonstrate significant improvements in challenging settings, where representative approaches may falter or prove less applicable.
Abstract（参考訳）: 本研究では, 全く異なるモデルアーキテクチャ, タスク, モダリティ間の異質な知識伝達に着目した。既存の知識伝達方法(例えば、バックボーン共有、知識蒸留)は、しばしばモデル構造やタスク固有の機能/ラベル内の共有要素にヒンジし、複雑なモデルタイプやタスクへの転送を制限する。これらの課題を克服するために、異種モデルのパラメータ空間のギャップを埋めることを学び、これらのパラメータ空間内での直接的な相互作用、抽出、知識の応用を容易にするMergeNetを提案する。 MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリして、ターゲットモデルへのパラメータの識別とマッピングを順応的に学習する。 MergeNetは両方のモデルと共に学習され、我々のフレームワークは、ソースモデルのトレーニング軌道知識を含む、現在のステージに関連する知識を動的に転送し、適応することができます。不均一な知識伝達に関する大規模な実験は、代表的アプローチが干渉したり適用範囲を減らしたりすることの可能な、挑戦的な設定において顕著な改善を示す。

関連論文リスト

Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Knowledge Grafting of Large Language Models [35.09135973799701]
大規模言語モデル(LLM)研究において,クロスキャパビリティ・トランスファーは重要な課題である。 FuseLLMやFuseChatといった最近の研究は、複数のモデル機能を軽量モデルに転送する可能性を実証している。本稿では,SkillPackフォーマットのターゲットモデルにソースモデル機能を格納する新しい手法であるGraftLLMを紹介する。
論文参考訳（メタデータ） (2025-05-24T04:43:24Z)
Activation Space Interventions Can Be Transferred Between Large Language Models [0.0]
モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
論文参考訳（メタデータ） (2025-03-06T13:38:44Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文参考訳（メタデータ） (2024-07-16T16:35:23Z)
Enhancing Accuracy in Generative Models via Knowledge Transfer [4.3108820946281945]
本研究では,Kullback-Leiblerの分散化など,分散指標下での伝達学習のための新しいフレームワークを提案する。提案理論は,共有構造が目標タスクの生成精度を向上させることを示唆している。
論文参考訳（メタデータ） (2024-05-27T05:10:49Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文参考訳（メタデータ） (2023-10-17T17:58:34Z)
Beyond Convergence: Identifiability of Machine Learning and Deep Learning Models [0.0]
本研究では,モデルパラメータ識別可能性の概念を,モーションセンサデータからのパラメータ推定に焦点をあてたケーススタディにより検討する。我々は、質量、剛性、平衡脚長などの主観的パラメータを推定するために、ディープニューラルネットワークを用いる。その結果、観測データから特定のパラメータを特定できるが、他のパラメータは未同定のままであることがわかった。
論文参考訳（メタデータ） (2023-07-21T03:40:53Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)
Hub-Pathway: Transfer Learning from A Hub of Pre-trained Models [89.44031286278347]
本稿では,モデルハブからの知識伝達を可能にするハブパスウェイフレームワークを提案する。提案するフレームワークは、目的のタスク固有の損失でエンドツーエンドにトレーニングすることができる。コンピュータビジョンおよび強化学習タスクの実験結果は、このフレームワークが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-06-08T08:00:12Z)
Lifelong Infinite Mixture Model Based on Knowledge-Driven Dirichlet Process [15.350366047108103]
生涯学習における最近の研究成果は、タスクの増加に対応するために、モデルの混合を成長させることが提案されている。本研究では,データの確率的表現間の差分距離に基づいてリスク境界を導出することにより,生涯学習モデルの理論的解析を行う。理論解析に着想を得て, 生涯無限混合モデル (LIMix) と呼ばれる新しい生涯学習手法を導入する。
論文参考訳（メタデータ） (2021-08-25T21:06:20Z)
Probing transfer learning with a model of synthetic correlated datasets [11.53207294639557]
トランスファーラーニングはニューラルネットワークのサンプル効率を大幅に向上させることができる。我々は、データセット間の相関をモデル化するためのフレームワークとして、合成データの解決可能なモデルを再考する。本研究では,本モデルが実データを用いた伝達学習の多彩な特徴を捉えることができることを示す。
論文参考訳（メタデータ） (2021-06-09T22:15:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。