論文の概要: Knowledge Grafting of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18502v1
- Date: Sat, 24 May 2025 04:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.463249
- Title: Knowledge Grafting of Large Language Models
- Title(参考訳): 大規模言語モデルの知識グラフティング
- Authors: Guodong Du, Xuanning Zhou, Junlin Li, Zhuo Li, Zesheng Shi, Wanyu Lin, Ho-Kin Tang, Xiucheng Li, Fangming Liu, Wenya Wang, Min Zhang, Jing Li,
- Abstract要約: 大規模言語モデル(LLM)研究において,クロスキャパビリティ・トランスファーは重要な課題である。
FuseLLMやFuseChatといった最近の研究は、複数のモデル機能を軽量モデルに転送する可能性を実証している。
本稿では,SkillPackフォーマットのターゲットモデルにソースモデル機能を格納する新しい手法であるGraftLLMを紹介する。
- 参考スコア(独自算出の注目度): 35.09135973799701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-capability transfer is a key challenge in large language model (LLM) research, with applications in multi-task integration, model compression, and continual learning. Recent works like FuseLLM and FuseChat have demonstrated the potential of transferring multiple model capabilities to lightweight models, enhancing adaptability and efficiency, which motivates our investigation into more efficient cross-capability transfer methods. However, existing approaches primarily focus on small, homogeneous models, limiting their applicability. For large, heterogeneous models, knowledge distillation with full-parameter fine-tuning often overlooks the student model's intrinsic capacity and risks catastrophic forgetting, while PEFT methods struggle to effectively absorb knowledge from source LLMs. To address these issues, we introduce GraftLLM, a novel method that stores source model capabilities in a target model with SkillPack format. This approach preserves general capabilities, reduces parameter conflicts, and supports forget-free continual learning and model fusion. We employ a module-aware adaptive compression strategy to compress parameter updates, ensuring efficient storage while maintaining task-specific knowledge. The resulting SkillPack serves as a compact and transferable knowledge carrier, ideal for heterogeneous model fusion and continual learning. Experiments across various scenarios demonstrate that GraftLLM outperforms existing techniques in knowledge transfer, knowledge fusion, and forget-free learning, providing a scalable and efficient solution for cross-capability transfer. The code is publicly available at: https://github.com/duguodong7/GraftLLM.
- Abstract(参考訳): クロスキャパビリティ・トランスファーは、マルチタスク統合、モデル圧縮、連続学習に応用された大規模言語モデル(LLM)研究において重要な課題である。
FuseLLMやFuseChatといった最近の研究は、複数のモデル機能を軽量モデルに移行し、適応性と効率を向上させる可能性を実証している。
しかし、既存のアプローチは主に小型で均質なモデルに焦点を合わせ、適用性を制限する。
大規模で異質なモデルでは、フルパラメータの微調整による知識蒸留は、学生モデルの本質的な能力を見落とし、破滅的な忘れ込みのリスクを負うが、PEFT法はソースLLMからの知識を効果的に吸収するのに苦労する。
これらの問題に対処するために,SkillPackフォーマットのターゲットモデルにソースモデル機能を格納する新しい手法であるGraftLLMを紹介する。
このアプローチは一般的な能力を保ち、パラメータの衝突を減らし、忘れのない連続学習とモデル融合をサポートする。
モジュール対応の適応圧縮戦略を用いてパラメータ更新を圧縮し、タスク固有の知識を維持しながら効率的な記憶を確保する。
結果として得られるSkillPackは、コンパクトで伝達可能な知識キャリアとして機能し、異種モデル融合と連続学習に理想的である。
さまざまなシナリオの実験により、GraftLLMは知識伝達、知識融合、忘れのない学習において既存の技術よりも優れており、クロスキャパビリティー転送のためのスケーラブルで効率的なソリューションを提供する。
コードは、https://github.com/duguodong7/GraftLLM.comで公開されている。
関連論文リスト
- Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。
実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。
様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T16:35:23Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。