論文の概要: Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT
- arxiv url: http://arxiv.org/abs/2511.14106v1
- Date: Tue, 18 Nov 2025 03:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.915906
- Title: Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT
- Title(参考訳): ステルスファインチューニング:自己生成CoTを用いたRVLMの配向を効率よく破壊する
- Authors: Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao Liu,
- Abstract要約: Reasoning-augmented Vision-Language Modelsは、有害な行動を防ぐために安全アライメントに依存している。
本研究では, RVLMの安全アライメントが, textbfStealth Fine-Tuning と呼ばれる新たな攻撃方法によって容易に破壊できることを見出した。
- 参考スコア(独自算出の注目度): 7.41807620230745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-augmented Vision-Language Models (RVLMs) rely on safety alignment to prevent harmful behavior, yet their exposed chain-of-thought (CoT) traces introduce new attack surfaces. In this work, we find that the safety alignment of RVLMs can be easily break through a novel attack method termed \textbf{Stealth Fine-Tuning}. Our method elicits harmful reasoning traces through \textbf{segment-level interference} and reuses the self-generated outputs as supervised fine-tuning data. Through a \textbf{turn-based weighted} loss design, yielding a lightweight, distribution-consistent finetuning method. In our experiment, with only 499 samples and under 3 hours on a single A100 (QLoRA), Stealth Fine-Tuning outperforms IDEATOR by 38.52\% ASR while preserving general reasoning ability, as the tuned model retains the original representation distribution. Experiments on AdvBench and several general benchmarks demonstrate that Stealth Fine-Tuning is a low-cost and highly effective way to bypass alignment defenses. \textcolor{red}{\textbf{Disclaimer: This paper contains content that may be disturbing or offensive.}}
- Abstract(参考訳): Reasoning-augmented Vision-Language Models (RVLMs) は有害な行動を防ぐために安全アライメントに頼っているが、CoTトレースは新たな攻撃面を導入している。
本研究では, RVLMの安全アライメントが, textbf{Stealth Fine-Tuning} と呼ばれる新しい攻撃方法によって容易に破壊できることを見出した。
提案手法は, 有害な推論トレースをtextbf{segment-level interference} を通じて抽出し, 教師付き微調整データとして自己生成出力を再利用する。
textbf{turn-based weighted} loss designにより、軽量で分布に一貫性のある微調整法が得られる。
実験では,1つのA100(QLoRA)上でわずか499サンプルと3時間以下で,チューニングされたモデルが元の表現分布を保持するため,一般的な推論能力を保ちながらIDEATORを38.52\%向上させた。
AdvBenchといくつかの一般的なベンチマークの実験は、ステルスファインチューニングがアライメント防御をバイパスするための低コストで高効率な方法であることを示した。
textcolor{red}{\textbf{Disclaimer: この論文には、邪魔になるかもしれないコンテンツが含まれています。
(3)
関連論文リスト
- Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler [67.24175911858312]
有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。
BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
論文 参考訳(メタデータ) (2025-10-31T04:49:37Z) - BDFirewall: Towards Effective and Expeditiously Black-Box Backdoor Defense in MLaaS [9.441965281943132]
本稿では,ブラックボックスシナリオにおけるバックドア攻撃対策の課題について述べる。
我々はまず、新しい視点、すなわちパッチされた領域への影響からバックドアトリガを分類し、それらを分割する: ハイビジョントリガー(HVT)、セミヴィジュアビリティトリガー(SVT)、ロービジョントリガー(LVT)。
この分類に基づいて、モデルアクセスを必要とせずに、これらのトリガを最も目立ったものから最も微妙なものへと取り除くプログレッシブディフェンスフレームワークであるBDFirewallを提案する。
論文 参考訳(メタデータ) (2025-08-05T10:28:07Z) - TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T05:03:35Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions [14.881201844063616]
本稿では,アライメント・エンハンスメント・デコーディング(Alignment-Enhanced Decoding, AED)を提案する。
5つのモデルと4つの一般的なジェイルブレイク実験を行い、その結果、我々のアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-08-14T16:51:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates [55.69224221154593]
一見安全なデータセットの微調整さえも、モデル内の安全でない振る舞いを引き起こす可能性がある。
セーフテスト(PTST)戦略 - 安全プロンプトのない微調整モデルを提案するが、テスト時に含める。
論文 参考訳(メタデータ) (2024-02-28T18:23:49Z) - Towards Stable Backdoor Purification through Feature Shift Tuning [22.529990213795216]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。
チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
論文 参考訳(メタデータ) (2023-10-03T08:25:32Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。