論文の概要: EnchTable: Unified Safety Alignment Transfer in Fine-tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2511.09880v1
- Date: Fri, 14 Nov 2025 01:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.547141
- Title: EnchTable: Unified Safety Alignment Transfer in Fine-tuned Large Language Models
- Title(参考訳): EnchTable: 微調整大言語モデルにおける統一型安全アライメント転送
- Authors: Jialin Wu, Kecen Li, Zhicong Huang, Xinfeng Li, Xiaofeng Wang, Cheng Hong,
- Abstract要約: 多くの機械学習モデルは、コード生成、バイオメディカル分析、数学的問題解決といった特殊な領域で高いパフォーマンスを達成するために、大きな言語モデル(LLM)から微調整されている。
EnchTableは、大規模な再訓練を必要とせず、下流のLLMにおける安全アライメントを転送し、維持するように設計された新しいフレームワークである。
- 参考スコア(独自算出の注目度): 23.11474404054016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning models are fine-tuned from large language models (LLMs) to achieve high performance in specialized domains like code generation, biomedical analysis, and mathematical problem solving. However, this fine-tuning process often introduces a critical vulnerability: the systematic degradation of safety alignment, undermining ethical guidelines and increasing the risk of harmful outputs. Addressing this challenge, we introduce EnchTable, a novel framework designed to transfer and maintain safety alignment in downstream LLMs without requiring extensive retraining. EnchTable leverages a Neural Tangent Kernel (NTK)-based safety vector distillation method to decouple safety constraints from task-specific reasoning, ensuring compatibility across diverse model architectures and sizes. Additionally, our interference-aware merging technique effectively balances safety and utility, minimizing performance compromises across various task domains. We implemented a fully functional prototype of EnchTable on three different task domains and three distinct LLM architectures, and evaluated its performance through extensive experiments on eleven diverse datasets, assessing both utility and model safety. Our evaluations include LLMs from different vendors, demonstrating EnchTable's generalization capability. Furthermore, EnchTable exhibits robust resistance to static and dynamic jailbreaking attacks, outperforming vendor-released safety models in mitigating adversarial prompts. Comparative analyses with six parameter modification methods and two inference-time alignment baselines reveal that EnchTable achieves a significantly lower unsafe rate, higher utility score, and universal applicability across different task domains. Additionally, we validate EnchTable can be seamlessly integrated into various deployment pipelines without significant overhead.
- Abstract(参考訳): 多くの機械学習モデルは、コード生成、バイオメディカル分析、数学的問題解決といった特殊な領域で高いパフォーマンスを達成するために、大きな言語モデル(LLM)から微調整されている。
しかし、この微調整プロセスは、安全アライメントの体系的な劣化、倫理的ガイドラインの弱体化、有害なアウトプットのリスクの増大といった重大な脆弱性をしばしば引き起こす。
この課題に対処するために,下流のLLMにおける安全アライメントの伝達と維持を,広範囲な再トレーニングを必要とせずに行う新しいフレームワークであるEnchTableを紹介した。
EnchTableは、NTK(Neural Tangent Kernel)ベースの安全ベクトル蒸留法を利用して、タスク固有の推論から安全制約を分離し、さまざまなモデルアーキテクチャとサイズ間の互換性を確保する。
さらに、干渉対応マージ技術は、安全性とユーティリティを効果的にバランスさせ、様々なタスク領域におけるパフォーマンスの妥協を最小限にする。
我々は3つの異なるタスクドメインと3つの異なるLLMアーキテクチャ上でEnchTableの完全なプロトタイプを実装し、その性能を11の多様なデータセットで広範な実験により評価し、実用性とモデルの安全性を評価した。
我々の評価には、異なるベンダーのLLMが含まれており、EnchTableの一般化能力を示している。
さらに、EnchTableは、静的および動的ジェイルブレイク攻撃に対する堅牢な抵抗を示し、敵のプロンプトを緩和するベンダーがリリースした安全モデルを上回っている。
6つのパラメータ修正法と2つの推論時間アライメントベースラインとの比較分析により、EnchTableは、異なるタスク領域間で、はるかに低い安全率、高いユーティリティスコア、普遍的な適用性を達成することが示された。
さらに、EnchTableが大きなオーバーヘッドを伴わずに、さまざまなデプロイメントパイプラインにシームレスに統合可能であることも確認しています。
関連論文リスト
- Reimagining Safety Alignment with An Image [49.33281424100804]
大きな言語モデル(LLM)は多様なアプリケーションで優れていますが、Jailbreak攻撃下で有害なコンテンツを生成し、良質なクエリを過剰に拒否する、という2つの課題に直面しています。
我々は,過度な拒絶を低減しつつ,セキュリティを向上させる最適化駆動型ビジュアルプロンプトフレームワークであるMagic Imageを提案する。
論文 参考訳(メタデータ) (2025-11-01T11:27:07Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - SafeTuneBed: A Toolkit for Benchmarking LLM Safety Alignment in Fine-Tuning [6.740032154591022]
ベンチマークとツールキットであるSafeTuneBedを導入し、微調整と防御の評価を統一する。
SafeTuneBedは、感情分析、質問回答、マルチステップ推論、オープンな命令タスクにまたがる、複数の微調整データセットの多様なリポジトリをキュレートする。
これは、アライメントステージの免疫、訓練中の安全ガード、訓練後の修復など、最先端の防衛の統合を可能にする。
論文 参考訳(メタデータ) (2025-05-31T19:00:58Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。
本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。
我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-18T08:04:24Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Scaling #DNN-Verification Tools with Efficient Bound Propagation and
Parallel Computing [57.49021927832259]
ディープニューラルネットワーク(DNN)は多くのシナリオで異常な結果を示した強力なツールです。
しかし、それらの複雑な設計と透明性の欠如は、現実世界のアプリケーションに適用する際の安全性上の懸念を提起する。
DNNの形式的検証(FV)は、安全面の証明可能な保証を提供する貴重なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-10T13:51:25Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。