論文の概要: Activation-Informed Merging of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.02421v1
- Date: Tue, 04 Feb 2025 15:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:56.288884
- Title: Activation-Informed Merging of Large Language Models
- Title(参考訳): 大規模言語モデルのアクティベーションインフォームド・マージ
- Authors: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan,
- Abstract要約: 本稿では,大規模言語モデルのアクティベーション空間から情報を統合する手法である Activation-Informed Merging (AIM) について述べる。
我々は、AIMが複数のベンチマークでマージされたモデルの性能を大幅に向上させることを実証的に実証した。
- 参考スコア(独自算出の注目度): 10.020512818972357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging, a method that combines the parameters and embeddings of multiple fine-tuned large language models (LLMs), offers a promising approach to enhance model performance across various tasks while maintaining computational efficiency. This paper introduces Activation-Informed Merging (AIM), a technique that integrates the information from the activation space of LLMs into the merging process to improve performance and robustness. AIM is designed as a flexible, complementary solution that is applicable to any existing merging method. It aims to preserve critical weights from the base model, drawing on principles from continual learning~(CL) and model compression. Utilizing a task-agnostic calibration set, AIM selectively prioritizes essential weights during merging. We empirically demonstrate that AIM significantly enhances the performance of merged models across multiple benchmarks. Our findings suggest that considering the activation-space information can provide substantial advancements in the model merging strategies for LLMs with up to 40\% increase in benchmark performance.
- Abstract(参考訳): 複数の微調整された大規模言語モデル(LLM)のパラメータと埋め込みを組み合わせたモデルマージは、計算効率を保ちながら、様々なタスクにおけるモデル性能を向上させるための有望なアプローチを提供する。
本稿では, LLM の活性化空間から情報を統合する手法である Activation-Informed Merging (AIM) について述べる。
AIMは、既存のマージメソッドに適用可能な、フレキシブルで相補的なソリューションとして設計されている。
ベースモデルから重要な重みを保つことを目的としており、継続学習~(CL)とモデル圧縮の原則に基づいています。
タスクに依存しないキャリブレーションセットを用いることで、AIMはマージ時に必須重量を選択的に優先順位付けする。
我々は、AIMが複数のベンチマークでマージされたモデルの性能を大幅に向上させることを実証的に実証した。
その結果, アクティベーション空間情報を考慮することで, LLMのモデル統合戦略が最大40%向上し, ベンチマーク性能が向上することが示唆された。
関連論文リスト
- ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。
提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.452011929848844]
本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。
問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。
我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文 参考訳(メタデータ) (2025-03-11T11:13:11Z) - LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。
階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。
コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-05T20:09:59Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [35.56060538535215]
本稿では,複数のドメイン特化モデルを効率的なピボットモデルに統合する戦略について検討する。
複数のLLMの強度を組み合わせるための2つの融合戦略を提案する。
GSM8K,MATH,HumanEvalの各タスクにおいて,9.27%,8.80%,8.89%の精度向上を実現した。
論文 参考訳(メタデータ) (2025-01-06T06:29:55Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。