論文の概要: Narrow fine-tuning erodes safety alignment in vision-language agents
- arxiv url: http://arxiv.org/abs/2602.16931v1
- Date: Wed, 18 Feb 2026 22:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.501002
- Title: Narrow fine-tuning erodes safety alignment in vision-language agents
- Title(参考訳): 視覚言語エージェントにおける狭小調整エロード安全アライメント
- Authors: Idhant Gulati, Shivam Raval,
- Abstract要約: 生涯にわたるマルチモーダルエージェントは、ポストトレーニングを通じて新しいタスクに継続的に適応しなければならない。
狭い領域の有害なデータセット上の微調整された視覚言語モデルが、深刻な創発的ミスアライメントを引き起こすことを実証する。
- 参考スコア(独自算出の注目度): 0.12441041004077093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong multimodal agents must continuously adapt to new tasks through post-training, but this creates fundamental tension between acquiring capabilities and preserving safety alignment. We demonstrate that fine-tuning aligned vision-language models on narrow-domain harmful datasets induces severe emergent misalignment that generalizes broadly across unrelated tasks and modalities. Through experiments on Gemma3-4B, we show that misalignment scales monotonically with LoRA rank, and that multimodal evaluation reveals substantially higher misalignment ($70.71 \pm 1.22$ at $r=128$) than text-only evaluation ($41.19 \pm 2.51$), suggesting that unimodal safety benchmarks may underestimate alignment degradation in vision-language models. Critically, even 10\% harmful data in the training mixture induces substantial alignment degradation. Geometric analysis reveals that harmful behaviors occupy a remarkably low-dimensional subspace, with the majority of misalignment information captured in 10 principal components. To mitigate misalignment, we evaluate two strategies: benign narrow fine-tuning and activation-based steering. While both approaches substantially reduce misalignment, neither completely removes the learned harmful behaviors. Our findings highlight the need for robust continual learning frameworks, as current post-training paradigms may not sufficiently preserve alignment in post-deployment settings.
- Abstract(参考訳): 生涯にわたるマルチモーダルエージェントは、ポストトレーニングを通じて新しいタスクに継続的に適応する必要があるが、これは獲得能力と安全アライメントの維持の間に根本的な緊張を生じさせる。
狭い領域の有害なデータセット上の微調整された視覚言語モデルが、無関係なタスクやモダリティを広範囲に一般化する深刻な創発的ミスアライメントを引き起こすことを実証する。
Gemma3-4Bの実験を通して、誤調整はLoRAランクと単調にスケールし、マルチモーダル評価により、テキストのみの評価(41.19 pm 2.51$)よりもはるかに高い誤調整(70.71 pm 1.22$ at $r=128$)が示され、一様安全性ベンチマークが視覚言語モデルのアライメント劣化を過小評価する可能性があることを示す。
臨界的には、トレーニング混合物中の有害なデータが10倍であっても、相当なアライメント劣化を引き起こす。
幾何学的分析により、有害な行動は極めて低次元の部分空間を占め、10の主成分で捉えられた誤った情報の大半を占めることが明らかとなった。
誤調整を軽減するために, 微調整を狭くすることと, アクティベーションに基づく操舵の2つの戦略を評価する。
どちらのアプローチもミスアライメントを大幅に減らしますが、学習した有害な振る舞いを完全に取り除きません。
本研究は,現行のポストトレーニングパラダイムでは,デプロイ後のアライメントを十分に維持できないため,堅牢な継続的学習フレームワークの必要性を浮き彫りにしている。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - The Realignment Problem: When Right becomes Wrong in LLMs [6.8304813545377]
大規模な言語モデルと人間の価値の整合性は、安全なデプロイメントの中心であるが、現在のモデルは、進化する規範やポリシーに追随しない。
既存の未学習の手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。
本稿では,プログラミング政策問題として再認識する原則的アンラーニングの枠組みであるTRACEを紹介する。
論文 参考訳(メタデータ) (2025-11-04T14:52:58Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。