Fugu-MT 論文翻訳(概要): SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

論文の概要: SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

arxiv url: http://arxiv.org/abs/2501.01765v1
Date: Fri, 03 Jan 2025 11:34:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-06 16:38:31.585697
Title: SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation
Title（参考訳）: SaLoRA: 安全に配慮した低ランク適応
Authors: Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang,
Abstract要約: 近年の研究では、LoRAの微調整が大きな言語モデルの安全性を損なう可能性があるという懸念が持ち上がっている。本稿では,安全性に配慮した低ランク適応(SaLoRA)を提案する。以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。
参考スコア（独自算出の注目度）: 41.91948079316541
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As advancements in large language models (LLMs) continue and the demand for personalized models increases, parameter-efficient fine-tuning (PEFT) methods (e.g., LoRA) will become essential due to their efficiency in reducing computation costs. However, recent studies have raised alarming concerns that LoRA fine-tuning could potentially compromise the safety alignment in LLMs, posing significant risks for the model owner. In this paper, we first investigate the underlying mechanism by analyzing the changes in safety alignment related features before and after fine-tuning. Then, we propose a fixed safety module calculated by safety data and a task-specific initialization for trainable parameters in low-rank adaptations, termed Safety-alignment preserved Low-Rank Adaptation (SaLoRA). Unlike previous LoRA methods and their variants, SaLoRA enables targeted modifications to LLMs without disrupting their original alignments. Our experiments show that SaLoRA outperforms various adapters-based approaches across various evaluation metrics in different fine-tuning tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩が進み、パーソナライズされたモデルへの需要が増加するにつれて、計算コストの削減に効率性があるため、PEFT法(例:LoRA)が不可欠となる。しかし、最近の研究では、LORAの微調整がLLMの安全性を損なう可能性があり、モデル所有者にとって重大なリスクが生じるという懸念が持ち上がっている。本稿では, 微調整前後の安全アライメント関連特徴の変化を解析し, 基礎となるメカニズムについて検討する。次に,安全データから算出した固定安全モジュールと,低ランク適応におけるトレーニング可能なパラメータのタスク固有の初期化を,SaLoRA(Safety-alignment preserved Low-Rank Adaptation)と呼ぶ。以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。

関連論文リスト

zkLoRA: Fine-Tuning Large Language Models with Verifiable Security via Zero-Knowledge Proofs [44.0362091911335]
ゼロ知識証明(ZKP)とLoRAファインチューニングを統合する最初のフレームワークであるzkLoRAを紹介する。 zkLoRAは、Transformerベースのアーキテクチャにおいて、算術演算と非算術演算の両方を検証するために高度な暗号技術を採用している。 zkLoRAは、LLaMAのようなオープンソースのLLMで実験的な検証を行い、最大13億のパラメータをスケールすることで、実用性と効率を実証する。
論文参考訳（メタデータ） (2025-08-29T08:14:38Z)
S3LoRA: Safe Spectral Sharpness-Guided Pruning in Adaptation of Agent Planner [1.6114012813668932]
LoRAのようなパラメータ効率のよい微調整技術を用いて、LLM(Large Language Models)を適用することで、LLMベースのエージェントで強力な機能を実現している。既存の安全に配慮した適応手法では、ベースと命令で調整されたモデルチェックポイントの両方にアクセスする必要がある。本稿では,軽量でデータフリーでモデルに依存しないフレームワークであるS3LoRAを提案する。
論文参考訳（メタデータ） (2025-08-20T21:08:29Z)
LoRA is All You Need for Safety Alignment of Reasoning LLMs [14.561805865086948]
本稿では,SFT に LoRA を使用すれば,その推論能力を損なうことなく,安全のためにモデルを効果的に整列させることができることを示す。これは、安全ウェイト更新を低ランク空間に制限することは、推論ウェイトとの干渉を最小限にするからである。
論文参考訳（メタデータ） (2025-07-22T23:25:16Z)
Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文参考訳（メタデータ） (2025-06-21T14:59:54Z)
LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。 LoXは攻撃成功率を11%から54%に下げる。
論文参考訳（メタデータ） (2025-06-18T16:30:02Z)
LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。 LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文参考訳（メタデータ） (2025-03-24T18:11:42Z)
SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models [30.93821289892195]
IRR (Identify, Remove, and Recalibrate for Safety Realignment) を提案する。 IRRの中核は、保持されたパラメータを再調整しながら、微調整されたモデルから安全でないデルタパラメータを特定し、除去することである。この結果から,IRRは有害なクエリやジェイルブレイク攻撃などの安全性ベンチマークにおいて,微調整モデルの安全性を著しく向上することが示された。
論文参考訳（メタデータ） (2024-12-15T03:58:38Z)
Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文参考訳（メタデータ） (2024-12-03T07:25:30Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文参考訳（メタデータ） (2024-10-07T19:53:35Z)
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文参考訳（メタデータ） (2024-05-27T17:31:56Z)
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
カスタマイズされたデータセット、ドメイン固有のタスク、その他のプライベートニーズに対するパフォーマンスを高めるためには、微調整された大きな言語モデル(LLM)が必要である。 Safe LoRAは、選択したレイヤからのLoRA重みのプロジェクションを安全に整合したサブスペースに導入することで、オリジナルのLoRA実装のワンラインパッチである。我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文参考訳（メタデータ） (2024-05-27T05:04:05Z)
ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models [8.251547772610301]
低ランク適応 (LoRA) の方法論を、低ランク適応 (AloRA) と呼ぶ革新的なアプローチに拡張する。まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。
論文参考訳（メタデータ） (2024-03-24T15:09:55Z)
Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-20T11:56:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。