Fugu-MT 論文翻訳(概要): Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

論文の概要: Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

arxiv url: http://arxiv.org/abs/2412.19512v1
Date: Fri, 27 Dec 2024 08:03:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.249929
Title: Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
Title（参考訳）: 予混合および後混合による微調整LDMの保護
Authors: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee,
Abstract要約: 下流タスクのための細調整された大型言語モデル(LLM)は、安全に整合したLLMの安全性を低下させる。下流タスク性能を向上しつつ, LLM 固有の安全性を維持する手法を提案する。
参考スコア（独自算出の注目度）: 43.44112117935541
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning large language models (LLMs) for downstream tasks is a widely adopted approach, but it often leads to safety degradation in safety-aligned LLMs. Currently, many solutions address this issue by incorporating additional safety data, which can be impractical in many cases. In this paper, we address the question: How can we improve downstream task performance while preserving safety in LLMs without relying on additional safety data? We propose a simple and effective method that maintains the inherent safety of LLMs while enhancing their downstream task performance: merging the weights of pre- and post-fine-tuned safety-aligned models. Experimental results across various downstream tasks, models, and merging methods demonstrate that this approach effectively mitigates safety degradation while improving downstream task performance, offering a practical solution for adapting safety-aligned LLMs.
Abstract（参考訳）: 下流タスクのための微調整大型言語モデル(LLM)は広く採用されているアプローチであるが、安全に整合したLLMの安全性の低下につながることが多い。現在、多くのソリューションが追加の安全データを組み込むことでこの問題に対処している。本稿では,LLMの安全性を維持しつつ,追加の安全データに頼ることなく,ダウンストリームタスクのパフォーマンスを改善するにはどうすればよいのか,という課題に対処する。そこで本研究では,LLMの安全性を簡易かつ効果的に維持し,そのダウンストリームタスク性能を向上する手法を提案する。各種ダウンストリームタスク,モデル,マージ手法による実験結果から,ダウンストリームタスク性能を改善しつつ,安全性の低下を効果的に軽減し,安全性に整合したLCMを適応するための実用的なソリューションを提供することが示されている。

関連論文リスト

Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文参考訳（メタデータ） (2025-07-24T17:59:24Z)
Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文参考訳（メタデータ） (2025-06-21T14:59:54Z)
LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。 LoXは攻撃成功率を11%から54%に下げる。
論文参考訳（メタデータ） (2025-06-18T16:30:02Z)
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文参考訳（メタデータ） (2025-05-26T08:25:25Z)
Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization [7.1060720569792215]
微調整された大きな言語モデル(LLM)は、必然的に安全性を損なう可能性がある。安全リスクの軽減を目的とした安全意識探索(SAP)フレームワークを導入する。実験の結果,SAPは従来の微調整モデルよりも有害性を効果的に低減できることがわかった。
論文参考訳（メタデータ） (2025-05-22T14:52:10Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [38.69546578029726]
本稿では,タスクユーティリティを維持しながら安全性を保った後調整フレームワークであるSafeMERGEを提案する。 Llama-2-7B-Chat および Qwen-2-7B-Instruct モデルに対して, SafeMERGE の評価を行った。
論文参考訳（メタデータ） (2025-03-21T15:44:09Z)
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.168387024091082]
人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。微調整プロセスを通して安全性を維持することは、依然として大きな課題である。トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T08:40:30Z)
Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
内部パラメータは、悪意のないバックドアや通常のデータで微調整された場合、セキュリティの劣化に対して脆弱である。モデルの中心にある,悪意のあるクエリと通常のクエリを区別する上で重要な,連続的なレイヤの小さなセットを同定する。そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。
論文参考訳（メタデータ） (2024-08-30T04:35:59Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文参考訳（メタデータ） (2024-05-30T08:03:15Z)
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文参考訳（メタデータ） (2024-05-27T17:31:56Z)
Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。 textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。