論文の概要: Efficiency vs. Alignment: Investigating Safety and Fairness Risks in Parameter-Efficient Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2511.00382v1
- Date: Sat, 01 Nov 2025 03:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.750504
- Title: Efficiency vs. Alignment: Investigating Safety and Fairness Risks in Parameter-Efficient Fine-Tuning of LLMs
- Title(参考訳): 効率対アライメント: LLMのパラメータ効率の良い微調整における安全性と公正リスクの調査
- Authors: Mina Taraghi, Yann Pequignot, Amin Nikanjam, Mohamed Amine Merzouk, Foutse Khomh,
- Abstract要約: 微調整技術は安全性と公正性に異なる影響を及ぼす可能性がある。
アダプタベースのアプローチでは安全性のスコアが向上する傾向があり、公平性に対して最も破壊的ではない。
Prompt-Tuning と P-Tuning は一般に安全性を低下させ、より大きな公正性回帰を引き起こす。
- 参考スコア(独自算出の注目度): 6.301699616285567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organizations are increasingly adopting and adapting Large Language Models (LLMs) hosted on public repositories such as HuggingFace. Although these adaptations often improve performance on specialized downstream tasks, recent evidence indicates that they can also degrade a model's safety or fairness. Since different fine-tuning techniques may exert distinct effects on these critical dimensions, this study undertakes a systematic assessment of their trade-offs. Four widely used Parameter-Efficient Fine-Tuning methods, LoRA, IA3, Prompt-Tuning, and P-Tuning, are applied to four instruction-tuned model families (Meta-Llama-3-8B, Qwen2.5-7B, Mistral-7B, and Gemma-7B). In total, 235 fine-tuned variants are evaluated across eleven safety hazard categories and nine demographic fairness dimensions. The results show that adapter-based approaches (LoRA, IA3) tend to improve safety scores and are the least disruptive to fairness, retaining higher accuracy and lower bias scores. In contrast, prompt-based methods (Prompt-Tuning and P-Tuning) generally reduce safety and cause larger fairness regressions, with decreased accuracy and increased bias. Alignment shifts are strongly moderated by base model type: LLaMA remains stable, Qwen records modest gains, Gemma experiences the steepest safety decline, and Mistral, which is released without an internal moderation layer, displays the greatest variance. Improvements in safety do not necessarily translate into improvements in fairness, and no single configuration optimizes all fairness metrics simultaneously, indicating an inherent trade-off between these objectives. These findings suggest a practical guideline for safety-critical deployments: begin with a well-aligned base model, favour adapter-based PEFT, and conduct category-specific audits of both safety and fairness.
- Abstract(参考訳): HuggingFaceのようなパブリックリポジトリにホストされているLarge Language Models(LLM)の採用と適応が増えている。
これらの適応は、しばしば特定の下流タスクのパフォーマンスを改善するが、最近の証拠はモデルの安全性や公平性を低下させる可能性があることを示している。
異なる微調整技術がこれらの臨界次元に異なる影響を及ぼす可能性があるため、本研究ではそれらのトレードオフを体系的に評価する。
4つのパラメータ効率の良いファインチューニング法、LoRA, IA3, Prompt-Tuning, P-Tuningを4つの命令チューニングモデル(Meta-Llama-3-8B, Qwen2.5-7B, Mistral-7B, Gemma-7B)に適用した。
全体では、11の安全危険カテゴリーと9つの人口的公正次元で235の微調整された変種が評価されている。
その結果, アダプタベースのアプローチ (LoRA, IA3) では安全性が向上する傾向があり, 公正度が低下し, 精度が向上し, バイアススコアが低下することが示唆された。
対照的に、プロンプトベースの手法(Prompt-TuningとP-Tuning)は一般的に安全性を低下させ、精度を低下させバイアスを増大させる。
LLaMAは安定しており、Qwenはモデストゲインを記録し、Gemmaは最も急激な安全性低下を経験し、Mistralは内部モデレーション層なしでリリースされ、最大の分散を示す。
安全性の向上が必ずしも公正性の改善に結びつくとは限らないし、すべての公正性指標を同時に最適化する単一の構成も存在せず、これらの目標間の固有のトレードオフを示している。
これらの結果から,安全クリティカルな展開の実践的ガイドラインが示唆された。まずは,適合性の高いベースモデル,アダプタベースのPEFT,安全性と公正性の両方のカテゴリ別監査である。
関連論文リスト
- SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin [38.577959886489076]
大規模言語モデル(LLM)は、微調整中に安全性のリスクに対して脆弱である。
AsFT(Anchoring Safety in Fine-Tuning)と呼ばれる安全微調整手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T05:59:48Z) - Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment [4.181987990532721]
ガードレールモデルやアライメントトレーニングなど、AIの安全性を保証するための既存のパラダイムは、推論効率または開発柔軟性を損なうことが多い。
タスク最適化ベースモデルから安全性特異的な計算を分離することで、これらの課題に対処する新しいフレームワークであるDisentangled Safety Adapters (DSA) を導入する。
DSAは、ベースモデルの内部表現を活用する軽量アダプタを使用し、推論コストに最小限の影響を伴って、多種多様なフレキシブルな安全性機能を実現する。
論文 参考訳(メタデータ) (2025-05-30T19:11:52Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [30.820398160975504]
微調整された大型言語モデル(LLM)は安全性を損なう可能性があるため、LSMは有害または非倫理的なプロンプトに応答する。
本稿では,下流性能を維持しながら安全性を維持する軽量なポストファインニングフレームワークであるSafeMERGEを提案する。
以上の結果から,選択的層ワイドマージは微調整時の安全性の低下を効果的に防ぐことができることが示された。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。