論文の概要: Transport and Merge: Cross-Architecture Merging for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.05495v1
- Date: Thu, 05 Feb 2026 09:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.873609
- Title: Transport and Merge: Cross-Architecture Merging for Large Language Models
- Title(参考訳): トランスポートとマージ:大規模言語モデルのためのクロスアーキテクチャマージ
- Authors: Chenhang Cui, Binyun Yang, Fei Shen, Yuxin Chen, Jingnan Zheng, Xiang Wang, An Zhang, Tat-Seng Chua,
- Abstract要約: 大規模言語モデル(LLM)は、モデルのキャパシティのスケーリングとデータのトレーニングによって、強力な能力を達成する。
多くの実世界のデプロイメントは、低リソースデータからトレーニングされたり、適応されたりした小さなモデルに依存している。
このギャップは、大規模で高リソースのモデルから小さな低リソースのターゲットに知識を伝達するメカニズムの必要性を動機付けている。
- 参考スコア(独自算出の注目度): 59.53629883788284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong capabilities by scaling model capacity and training data, yet many real-world deployments rely on smaller models trained or adapted from low-resource data. This gap motivates the need for mechanisms to transfer knowledge from large, high-resource models to smaller, low-resource targets. While model merging provides an effective transfer mechanism, most existing approaches assume architecture-compatible models and therefore cannot directly transfer knowledge from large high-resource LLMs to heterogeneous low-resource targets. In this work, we propose a cross-architecture merging framework based on optimal transport (OT) that aligns activations to infer cross-neuron correspondences between heterogeneous models. The resulting transport plans are then used to guide direct weight-space fusion, enabling effective high-resource to low-resource transfer using only a small set of inputs. Extensive experiments across low-resource languages and specialized domains demonstrate consistent improvements over target models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、モデルのキャパシティのスケーリングとトレーニングデータによって強力な能力を達成するが、多くの実世界のデプロイメントは、低リソースのデータからトレーニングまたは適応されたより小さなモデルに依存している。
このギャップは、大規模で高リソースのモデルから小さな低リソースのターゲットに知識を伝達するメカニズムの必要性を動機付けている。
モデルマージは効果的な転送機構を提供するが、既存のほとんどのアプローチではアーキテクチャ互換のモデルを想定しているため、大規模な高リソースのLCMから異種低リソースのターゲットへの知識を直接伝達することはできない。
本研究では,不均一モデル間の交叉ニューロン対応を推定するために,活性化を調整した最適輸送(OT)に基づくクロスアーキテクチャ・マージ・フレームワークを提案する。
結果として得られた輸送計画を用いて直接重量空間融合を導出し、少数の入力のみを用いて効率的な高リソースから低リソースへの移行を可能にする。
低リソース言語と特殊なドメインにわたる大規模な実験は、ターゲットモデルよりも一貫した改善を示している。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。