論文の概要: Harmonious Parameter Adaptation in Continual Visual Instruction Tuning for Safety-Aligned MLLMs
- arxiv url: http://arxiv.org/abs/2511.20158v1
- Date: Tue, 25 Nov 2025 10:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.405366
- Title: Harmonious Parameter Adaptation in Continual Visual Instruction Tuning for Safety-Aligned MLLMs
- Title(参考訳): 安全対応MLLMの連続的視覚指導チューニングにおける高調波パラメータ適応
- Authors: Ziqi Wang, Chang Che, Qi Wang, Hui Ma, Zenglin Shi, Cees G. M. Snoek, Meng Wang,
- Abstract要約: Harmonious Adaptation (HPA)は、集中型パラメータ分割、調和型パラメータ選択、パラメータ調整からなるポストトレーニングフレームワークである。
HPAは、既存のベースラインよりも高い安全性を維持し、忘れを軽減します。
CVITベンチマークと安全性評価データセットの実験は、HPAが既存のベースラインよりも高い安全性を維持し、忘れを軽減していることを示している。
- 参考スコア(独自算出の注目度): 49.76354497916853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While continual visual instruction tuning (CVIT) has shown promise in adapting multimodal large language models (MLLMs), existing studies predominantly focus on models without safety alignment. This critical oversight ignores the fact that real-world MLLMs inherently require such mechanisms to mitigate potential risks. In this work, we shift our focus to CVIT for safety-aligned MLLMs and observe that during continual adaptation, the model not only suffers from task forgetting but also exhibits degradation in its safety. Achieving a harmonious balance between safety and task performance remains a crucial challenge. To address this, we propose Harmonious Parameter Adaptation (HPA), a post-training framework composed of focusing-based parameter partition, harmoniously balanced parameter selection, and orthogonal parameter adjustment. Specifically, HPA partitions parameters into two types based on their focus on safety or task performance, and selects the focused ones to preserve from a balanced perspective. In addition, HPA imposes orthogonality constraints on parameter updates to further alleviate catastrophic forgetting. Extensive experiments on the CVIT benchmark and safety evaluation datasets demonstrate that HPA better maintains high safety and mitigates forgetting than existing baselines.
- Abstract(参考訳): 連続的視覚インストラクションチューニング(CVIT)はマルチモーダル大言語モデル(MLLM)の適応において有望であるが、既存の研究は主に安全アライメントのないモデルに焦点を当てている。
この批判的な監視は、現実世界のMLLMが潜在的なリスクを軽減するために本質的にそのようなメカニズムを必要とするという事実を無視している。
本研究は,安全に整合したMLLMのためのCVITに焦点を移し,連続的な適応の過程では,タスクの忘れ込みに苦しむだけでなく,安全性の低下も生じることを観察する。
安全とタスクパフォーマンスの調和の取れたバランスを達成することは、依然として重要な課題です。
そこで本研究では,集中型パラメータ分割,調和平衡パラメータ選択,直交パラメータ調整からなる学習後フレームワークであるHPAを提案する。
具体的には、HPAはパラメータを安全性やタスクパフォーマンスに重点を置いた2つのタイプに分割し、バランスの取れた視点から集中したパラメータを選択する。
さらに、HPAはパラメータ更新に直交性制約を課し、破滅的な忘れを緩和する。
CVITベンチマークと安全性評価データセットの大規模な実験は、HPAが既存のベースラインよりも高い安全性を維持し、忘れを軽減していることを示している。
関連論文リスト
- Alignment-Aware Quantization for LLM Safety [30.635936212381726]
大規模言語モデル(LLM)をデプロイする際の安全性と効率性は重要な要素である
本稿では、アライメント保存コントラスト(APC)損失をPTQパイプラインに統合する新しいアプローチであるアライメント・アウェア量子化(AAQ)を提案する。
AAQは標準のPTQ技術と互換性があり、様々なモデルファミリで堅牢な4ビット(W4A4)量子化を可能にする。
論文 参考訳(メタデータ) (2025-11-11T05:24:30Z) - Reimagining Safety Alignment with An Image [49.33281424100804]
大きな言語モデル(LLM)は多様なアプリケーションで優れていますが、Jailbreak攻撃下で有害なコンテンツを生成し、良質なクエリを過剰に拒否する、という2つの課題に直面しています。
我々は,過度な拒絶を低減しつつ,セキュリティを向上させる最適化駆動型ビジュアルプロンプトフレームワークであるMagic Imageを提案する。
論文 参考訳(メタデータ) (2025-11-01T11:27:07Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。