Fugu-MT 論文翻訳(概要): LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

論文の概要: LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

arxiv url: http://arxiv.org/abs/2502.16770v2
Date: Thu, 14 Aug 2025 07:15:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-15 15:52:16.776886
Title: LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint
Title（参考訳）: LEDマージング: 位置選択解離とモデルマージングにおける安全性とユーティリティの衝突を緩和する
Authors: Qianli Ma, Dongrui Liu, Qian Chen, Linfeng Zhang, Jing Shao,
Abstract要約: LED-Mergingは安全性とユーティリティの対立を解消し、信頼性の高いマルチタスク LLM を構築するための軽量でトレーニング不要なパラダイムを提供する。 $textbfL$ocates task-specific neurons via gradient-based attribution。 $textbfE$lects critical neurons through multi-model importance fusion。 $textbfD$isjointsパラメータ分離による更新の競合。
参考スコア（独自算出の注目度）: 42.98847958315427
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning pre-trained Large Language Models (LLMs) for specialized tasks incurs substantial computational and data costs. While model merging offers a training-free solution to integrate multiple task-specific models, existing methods suffer from safety-utility conflicts where enhanced general capabilities degrade safety safeguards. We identify two root causes: $\textbf{neuron misidentification}$ due to simplistic parameter magnitude-based selection, and $\textbf{cross-task neuron interference}$ during merging. To address these challenges, we propose $\textbf{LED-Merging}$, a three-stage framework that $\textbf{L}$ocates task-specific neurons via gradient-based attribution, dynamically $\textbf{E}$lects critical neurons through multi-model importance fusion, and $\textbf{D}$isjoints conflicting updates through parameter isolation. Extensive experiments on Llama-3-8B, Mistral-7B, and Llama2-13B demonstrate that LED-Merging effectively reduces harmful response rates, showing a 31.4\% decrease on Llama-3-8B-Instruct on HarmBench, while simultaneously preserving 95\% of utility performance, such as achieving 52.39\% accuracy on GSM8K. LED-Merging resolves safety-utility conflicts and provides a lightweight, training-free paradigm for constructing reliable multi-task LLMs. Code is available at $\href{https://github.com/MqLeet/LED-Merging}{GitHub}$.
Abstract（参考訳）: 特殊タスクのための微調整済み大規模言語モデル(LLM)は、かなりの計算とデータコストを発生させる。モデルマージは、複数のタスク固有のモデルを統合するためのトレーニング不要のソリューションを提供するが、既存の方法は安全性とユーティリティの衝突に苦しむ。 2つの根本原因を同定する: $\textbf{neuron misidentification}$ simplistic parameter magnitude-based selection と $\textbf{cross-task neuron interference}$ である。これらの課題に対処するために、$\textbf{LED-Merging}$, $\textbf{L}$ocates task-specific neurons via gradient-based Attribution, $\textbf{E}$lects critical neurons through multi-model importance fusion, $\textbf{D}$isjoints conflicting updates through parameters isolation。 Llama-3-8B, Mistral-7B, Llama2-13Bの広範囲にわたる実験により、LEDメルジングは有害反応率を効果的に低減し、HarmBench上のLlama-3-8Bインストラクションは31.4倍減少し、同時にGSM8K上で52.39倍の精度を達成した。 LED-Mergingは安全性とユーティリティの対立を解消し、信頼性の高いマルチタスク LLM を構築するための軽量でトレーニング不要なパラダイムを提供する。コードは$\href{https://github.com/MqLeet/LED-Merging}{GitHub}$で入手できる。

関連論文リスト

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA [16.758340727602793]
TQA(Table Question Answering)は、構造化テーブル上の自然言語質問に答えることを目的としている。大規模言語モデル(LLM)は、最先端のパフォーマンスを提供するマルチステップ方式でテーブル操作パイプラインを生成する演算子中心のソリューションによって、この問題に対する有望な解決策を可能にする。我々は,TQAのための高品質なデータ準備パイプラインを単一推論ステップで作成するために,新しい改良型強化学習を通じて軽量LLMを訓練する最初のフレームワークであるOperation-R1を提案する。
論文参考訳（メタデータ） (2026-02-26T07:49:50Z)
Wireless Federated Multi-Task LLM Fine-Tuning via Sparse-and-Orthogonal LoRA [61.12136997430116]
低ランク適応(LoRA)に基づく分散連合学習(DFL)により、マルチタスクデータセットを持つモバイルデバイスは、ローカルに更新されたパラメータを、無線接続を介して近隣デバイスのサブセットと交換することで、大きな言語モデル(LLM)を協調的に微調整することができる。不均一データセットに微調整されたパラメータを直接集約すると、DFLライフサイクルの3つの主要な問題が発生する: (i) 微調整プロセス中に忘れる破滅的な知識、(ii) データの異種性に起因する更新方向の矛盾に起因する。
論文参考訳（メタデータ） (2026-02-24T02:45:32Z)
Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文参考訳（メタデータ） (2026-02-23T00:33:38Z)
ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions [0.32928123659012326]
ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
論文参考訳（メタデータ） (2026-01-03T13:41:33Z)
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文参考訳（メタデータ） (2025-06-19T15:38:21Z)
Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging [38.12136955174922]
個別タスクのための微調整された大規模言語モデル(LM)は、高いパフォーマンスをもたらすが、デプロイメントやストレージには高価である。最近の研究は、複数のタスク固有のモデルを追加トレーニングなしで単一のマルチタスクモデルに結合するモデルマージについて検討している。既存のマージ方式は、性能劣化のためにローランク適応(LoRA)を微調整したモデルでは失敗することが多い。
論文参考訳（メタデータ） (2025-05-28T23:28:12Z)
Decouple and Orthogonalize: A Data-Free Framework for LoRA Merging [18.650279202312614]
分離直交メルジング手法(DO-Merging)を提案する。パラメータを大きさと方向の成分に分離することにより、マージしたモデルの方向アライメントに対する大きさ差の影響を低減する。我々は、視覚、言語、マルチモーダル領域にわたる広範な実験を通じて、提案したDO-Mergingは、既存のマージメソッドよりも、最小限のコストで大幅に高いパフォーマンスを達成することができることを検証した。
論文参考訳（メタデータ） (2025-05-21T16:34:37Z)
$\ extit{Agents Under Siege}$: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks [45.74758377276353]
マルチエージェント大規模言語モデル(LLM)システムは,エージェント間の通信や分散推論に依存するため,新たな敵対的リスクを生み出す。本研究では,トークンの帯域幅の制限,メッセージ配信のレイテンシ,防御機構といった制約のある実用的システムへの攻撃に革新的な焦点をあてる。我々は、レイテンシと帯域幅制約のあるネットワークトポロジ間の迅速な分散を最適化し、分散安全機構をバイパスする、$textitpermutation-invariant adversarial attack$を設計する。
論文参考訳（メタデータ） (2025-03-31T20:43:56Z)
Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging [11.708743111945727]
大きな言語モデル(LLM)は印象的な能力を示しているが、その高い計算コストはカスタマイズに困難をもたらす。モデルマージはコスト効率の良い代替手段を提供するが、既存のメソッドはパラメータ間の干渉に悩まされ、パフォーマンスが低下する。本稿では,モデル内干渉とモデル間干渉を緩和する新しい手法である,最適脳反復法を提案する。
論文参考訳（メタデータ） (2025-02-17T09:07:49Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging [36.00016254809852]
本稿では, 3H 対応 LLM の構築におけるモデルマージとデータ混合手法の有効性を体系的に比較する。そこで本稿では,新しいtextbfReweighting textbfEnhanced Task textbfSingular textbfMerging method, textbfRESMを提案する。
論文参考訳（メタデータ） (2025-02-08T11:56:58Z)
R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文参考訳（メタデータ） (2024-11-27T10:57:06Z)
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs [3.967858172081495]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。ミッションクリティカルなアプリケーションの採用が増えると、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まる。
論文参考訳（メタデータ） (2024-11-21T00:01:51Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Is Parameter Collision Hindering Continual Learning in LLMs? [50.57658782050275]
大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。 CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
論文参考訳（メタデータ） (2024-10-14T05:54:11Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文参考訳（メタデータ） (2023-08-18T16:27:04Z)
TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文参考訳（メタデータ） (2023-06-02T17:31:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。