論文の概要: S3LoRA: Safe Spectral Sharpness-Guided Pruning in Adaptation of Agent Planner
- arxiv url: http://arxiv.org/abs/2508.15068v1
- Date: Wed, 20 Aug 2025 21:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.093498
- Title: S3LoRA: Safe Spectral Sharpness-Guided Pruning in Adaptation of Agent Planner
- Title(参考訳): S3LoRA: エージェントプランナ適応のための安全なスペクトルシャープネス誘導プルーニング
- Authors: Shuang Ao, Gopal Rumchurn,
- Abstract要約: LoRAのようなパラメータ効率のよい微調整技術を用いて、LLM(Large Language Models)を適用することで、LLMベースのエージェントで強力な機能を実現している。
既存の安全に配慮した適応手法では、ベースと命令で調整されたモデルチェックポイントの両方にアクセスする必要がある。
本稿では,軽量でデータフリーでモデルに依存しないフレームワークであるS3LoRAを提案する。
- 参考スコア(独自算出の注目度): 1.6114012813668932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting Large Language Models (LLMs) using parameter-efficient fine-tuning (PEFT) techniques such as LoRA has enabled powerful capabilities in LLM-based agents. However, these adaptations can unintentionally compromise safety alignment, leading to unsafe or unstable behaviors, particularly in agent planning tasks. Existing safety-aware adaptation methods often require access to both base and instruction-tuned model checkpoints, which are frequently unavailable in practice, limiting their applicability. We propose S3LoRA (Safe Spectral Sharpness-Guided Pruning LoRA), a lightweight, data-free, and model-independent framework that mitigates safety risks in LoRA-adapted models by inspecting only the fine-tuned weight updates. We first introduce Magnitude-Aware Spherically Normalized SVD (MAS-SVD), which robustly analyzes the structural properties of LoRA updates while preserving global magnitude information. We then design the Spectral Sharpness Index (SSI), a sharpness-aware metric to detect layers with highly concentrated and potentially unsafe updates. These layers are pruned post-hoc to reduce risk without sacrificing task performance. Extensive experiments and ablation studies across agent planning and language generation tasks show that S3LoRA consistently improves safety metrics while maintaining or improving utility metrics and significantly reducing inference cost. These results establish S3LoRA as a practical and scalable solution for safely deploying LLM-based agents in real-world, resource-constrained, and safety-critical environments.
- Abstract(参考訳): LoRAのようなPEFT技術を用いてLLM(Large Language Models)を適用することで、LLMベースのエージェントで強力な機能を実現している。
しかしながら、これらの適応は意図せず安全アライメントを損なう可能性があり、特にエージェント計画タスクにおいて、安全でないか不安定な振る舞いを引き起こす。
既存の安全に配慮した適応手法では、しばしばベースと命令で調整されたモデルチェックポイントの両方にアクセスする必要があるが、実際は利用できないことが多く、適用性が制限されている。
S3LoRA(Safe Spectral Sharpness-Guided Pruning LoRA)は、軽量で、データフリーで、モデルに依存しないフレームワークである。
我々はまず,大域的な情報を保持しつつ,LoRA更新の構造特性を頑健に解析するMagnitude-Aware Spherically Normalized SVD(MAS-SVD)を紹介する。
次にスペクトルシャープネス指数(SSI: Spectral Sharpness Index)を設計する。
これらのレイヤは、タスクパフォーマンスを犠牲にすることなくリスクを低減するために、ポストホックで刈り取られる。
エージェント計画と言語生成タスクにわたる大規模な実験とアブレーション研究により、S3LoRAは、ユーティリティメトリクスを維持したり改善したりしながら、安全メトリクスを一貫して改善し、推論コストを著しく削減することが示された。
これらの結果から, LLMをベースとしたエージェントを実環境, 資源制約, 安全クリティカルな環境に安全に展開するための, 実用的でスケーラブルなソリューションとしてS3LoRAが確立された。
関連論文リスト
- Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation [41.91948079316541]
近年の研究では、LoRAの微調整が大きな言語モデルの安全性を損なう可能性があるという懸念が持ち上がっている。
本稿では,安全性に配慮した低ランク適応(SaLoRA)を提案する。
以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。
実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-01-03T11:34:28Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。