論文の概要: 1bit-Merging: Dynamic Quantized Merging for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.10743v1
- Date: Sat, 15 Feb 2025 09:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:12.082737
- Title: 1bit-Merging: Dynamic Quantized Merging for Large Language Models
- Title(参考訳): 1bit-Merging: 大規模言語モデルのための動的量子化マージ
- Authors: Shuqi Liu, Han Wu, Bowei He, Zehua Liu, Xiongwei Han, Mingxuan Yuan, Linqi Song,
- Abstract要約: texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。
我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
- 参考スコア(独自算出の注目度): 20.19975755949984
- License:
- Abstract: Recent advances in large language models have led to specialized models excelling in specific domains, creating a need for efficient model merging techniques. While traditional merging approaches combine parameters into a single static model, they often compromise task-specific performance. However, task-specific routing methods maintain accuracy but introduce substantial storage overhead. We present \texttt{1bit}-Merging, a novel framework that integrates task-specific routing with 1-bit quantized task vectors to balance performance and storage efficiency. Our approach leverages the observation that different task-specific models store knowledge in distinct layers-chat models primarily in attention layers and math/code models in MLP layers-enabling targeted compression strategies. Through extensive experiments with LLaMA2 and Mistral model families across chat, mathematical reasoning, and code generation tasks, we demonstrate that \texttt{1bit}-Merging achieves comparable or superior performance to existing methods while significantly reducing storage requirements. Our framework offers a practical solution for combining specialized models while maintaining their individual strengths and addressing the storage challenges of current approaches.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、特定のドメインで優れた特化モデルをもたらし、効率的なモデルマージ技術の必要性を生み出している。
従来のマージアプローチはパラメータをひとつの静的モデルに結合するが、タスク固有のパフォーマンスを損なうことが多い。
しかし、タスク固有のルーティング手法は正確性を維持するが、かなりのストレージオーバーヘッドをもたらす。
本稿では,タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し,性能と記憶効率のバランスをとる新しいフレームワークである「texttt{1bit}-Merging」を提案する。
我々のアプローチは、異なるタスク固有のモデルが、主に注意層において異なるレイヤチャットモデルに知識を格納し、MLP層を誘導するターゲット圧縮戦略において、数学/コードモデルを用いるという観察を活用している。
LLaMA2 および Mistral モデルファミリによるチャット,数学的推論,コード生成タスクの広範な実験を通じて,<texttt{1bit}-Merging が既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に低減することを示した。
我々のフレームワークは、個々の強みを維持しつつ、特定のモデルを組み合わせるための実践的なソリューションを提供し、現在のアプローチのストレージ課題に対処する。
関連論文リスト
- No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces [17.69597528370121]
モデルマージは、複数のタスク固有のモデルの重みを単一のマルチタスクモデルに統合する。
この問題に対する最近の関心にもかかわらず、シングルタスクモデルと組み合わせたモデルの間には大きなパフォーマンスギャップが残っている。
タスク固有成分とマージ行列の特異成分のアライメントは,性能改善と強く相関していることを示す。
論文 参考訳(メタデータ) (2025-02-07T14:22:56Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - SuperMerge: An Approach For Gradient-Based Model Merging [9.136320029568305]
ChatGPT、Claude、LLaMAといった大規模な言語モデルは巨大なモノリシックで、何千ものタスクを同時にサポートする超能力を持っている。
タスク固有のモデルを使用する場合の課題のひとつは、モデルが既存のタスクにすでにデプロイされている後、新しいタスクを解決するための漸進的な必要性である。
SuPERMERGEと呼ばれるモデルマージ方式を提案する。
SuPERMERGEは、自然言語処理やコンピュータビジョンタスクにおいて、既存のモデルマージ手法よりも優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2024-12-09T20:03:14Z) - MoD: A Distribution-Based Approach for Merging Large Language Models [0.0]
大規模言語モデル(LLM)は、多くの専門的なタスク固有の変種の開発を可能にした。
LLMをマージするための新しいアプローチであるTextitMixture of Distributions (MoD)フレームワークを提案する。
従来の重量測定法とは異なり、MoDは個々のモデルの特殊能力を効果的に保存する。
論文 参考訳(メタデータ) (2024-11-01T07:05:29Z) - Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic [22.73746175315071]
ローカライズ・アンド・スティッチ(Localize-and-Stitch)は、モデルをローカライズされた方法でマージする新しいアプローチである。
提案手法は,微調整性能に寄与するスパース領域を効果的に検出できることを実証する。
また,本アルゴリズムはモデル圧縮を容易にし,事前学習した知識を保存する。
論文 参考訳(メタデータ) (2024-08-24T19:14:02Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。