論文の概要: LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint
- arxiv url: http://arxiv.org/abs/2502.16770v1
- Date: Mon, 24 Feb 2025 01:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:25.677288
- Title: LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint
- Title(参考訳): LEDマージング: 位置選択解離とモデルマージングにおける安全性とユーティリティの衝突を緩和する
- Authors: Qianli Ma, Dongrui Liu, Qian Chen, Linfeng Zhang, Jing Shao,
- Abstract要約: LED-Mergingは安全性とユーティリティの対立を解消し、信頼性の高いマルチタスク LLM を構築するための軽量でトレーニング不要なパラダイムを提供する。
Llama-3-8B、Mistral-7B、Llama2-13Bの実験では、LEDMergingは有害反応率(例えば、HarmBench上のLlama-3-8Bインストラクションの31.4%減少)を減少させ、95%の実用性能(例えば、GSM8K上の52.39%の精度)を維持する。
- 参考スコア(独自算出の注目度): 42.98847958315427
- License:
- Abstract: Fine-tuning pre-trained Large Language Models (LLMs) for specialized tasks incurs substantial computational and data costs. While model merging offers a training-free solution to integrate multiple task-specific models, existing methods suffer from safety-utility conflicts where enhanced general capabilities degrade safety safeguards. We identify two root causes: \textbf{neuron misidentification} due to simplistic parameter magnitude-based selection, and \textbf{cross-task neuron interference} during merging. To address these challenges, we propose \textbf{LED-Merging}, a three-stage framework that \textbf{L}ocates task-specific neurons via gradient-based attribution, dynamically \textbf{E}lects critical neurons through multi-model importance fusion, and \textbf{D}isjoints conflicting updates through parameter isolation. Extensive experiments on Llama-3-8B, Mistral-7B, and Llama2-13B demonstrate that LED-Merging reduces harmful response rates(\emph{e.g.}, a 31.4\% decrease on Llama-3-8B-Instruct on HarmBench) while preserving 95\% of utility performance(\emph{e.g.}, 52.39\% accuracy on GSM8K). LED-Merging resolves safety-utility conflicts and provides a lightweight, training-free paradigm for constructing reliable multi-task LLMs.
- Abstract(参考訳): 特殊タスクのための微調整済み大規模言語モデル(LLM)は、かなりの計算とデータコストを発生させる。
モデルマージは、複数のタスク固有のモデルを統合するためのトレーニング不要のソリューションを提供するが、既存の方法は安全性とユーティリティの衝突に苦しむ。
そこで本研究では, 単純なパラメータサイズに基づく選択による誤同定の根本原因と, マージ時に生じる内在性ニューロン干渉の2つを同定した。
これらの課題に対処するため,次の3段階のフレームワークを提案する: \textbf{LED-Merging}, \textbf{L} isjoints conflicting updates through parameter isolation, \textbf{E}lects critical neurons through multi-model importance fusion, \textbf{D}isjoints conflicting updates through parameters isolation。
Llama-3-8B、Mistral-7B、Llama2-13Bの広範囲にわたる実験により、LEDメルジングは有害反応率(\emph{e g }、HarmBenchのLlama-3-8B-Instruct)を31.4 %減少させ、実用性能の95 %(\emph{e g }、52.39 %精度)を維持した。
LED-Mergingは安全性とユーティリティの対立を解消し、信頼性の高いマルチタスク LLM を構築するための軽量でトレーニング不要なパラダイムを提供する。
関連論文リスト
- Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging [11.708743111945727]
大きな言語モデル(LLM)は印象的な能力を示しているが、その高い計算コストはカスタマイズに困難をもたらす。
モデルマージはコスト効率の良い代替手段を提供するが、既存のメソッドはパラメータ間の干渉に悩まされ、パフォーマンスが低下する。
本稿では,モデル内干渉とモデル間干渉を緩和する新しい手法である,最適脳反復法を提案する。
論文 参考訳(メタデータ) (2025-02-17T09:07:49Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs [3.967858172081495]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
ミッションクリティカルなアプリケーションの採用が増えると、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まる。
論文 参考訳(メタデータ) (2024-11-21T00:01:51Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Red-Teaming Large Language Models using Chain of Utterances for
Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。
広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。
また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文 参考訳(メタデータ) (2023-08-18T16:27:04Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。