論文の概要: One Leak Away: How Pretrained Model Exposure Amplifies Jailbreak Risks in Finetuned LLMs
- arxiv url: http://arxiv.org/abs/2512.14751v1
- Date: Sun, 14 Dec 2025 07:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.717853
- Title: One Leak Away: How Pretrained Model Exposure Amplifies Jailbreak Risks in Finetuned LLMs
- Title(参考訳): 1つのリーク: 訓練済みのモデル露光が、微調整LDMの脱獄リスクをいかに増幅するか
- Authors: Yixin Tan, Zhe Yu, Jun Sakuma,
- Abstract要約: 高度に訓練された大規模言語モデル(LLM)は、下流アプリケーションを開発するための標準パラダイムとなっている。
LLMが予め訓練されたソースからジェイルブレイクの脆弱性を継承するかどうかを検討する。
本稿では、転送可能性関連方向に向けて最適化を行うPGP(Probe-Guided Projection)攻撃を提案する。
- 参考スコア(独自算出の注目度): 8.493938164845249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning pretrained large language models (LLMs) has become the standard paradigm for developing downstream applications. However, its security implications remain unclear, particularly regarding whether finetuned LLMs inherit jailbreak vulnerabilities from their pretrained sources. We investigate this question in a realistic pretrain-to-finetune threat model, where the attacker has white-box access to the pretrained LLM and only black-box access to its finetuned derivatives. Empirical analysis shows that adversarial prompts optimized on the pretrained model transfer most effectively to its finetuned variants, revealing inherited vulnerabilities from pretrained to finetuned LLMs. To further examine this inheritance, we conduct representation-level probing, which shows that transferable prompts are linearly separable within the pretrained hidden states, suggesting that universal transferability is encoded in pretrained representations. Building on this insight, we propose the Probe-Guided Projection (PGP) attack, which steers optimization toward transferability-relevant directions. Experiments across multiple LLM families and diverse finetuned tasks confirm PGP's strong transfer success, underscoring the security risks inherent in the pretrain-to-finetune paradigm.
- Abstract(参考訳): 高度に訓練された大規模言語モデル(LLM)は、下流アプリケーションを開発するための標準パラダイムとなっている。
しかし、そのセキュリティ上の意味ははっきりしない。特に微調整されたLLMが、事前訓練されたソースからジェイルブレイクの脆弱性を継承するかどうか。
この問題は、攻撃者が事前訓練されたLLMへのホワイトボックスアクセスと、その微調整されたデリバティブへのブラックボックスアクセスのみを持つ、現実的なプレトレイン・ツー・ファイントゥーン脅威モデルを用いて検討する。
実証分析により、事前訓練されたモデル転送に最適化された敵のプロンプトが、最も効果的にその微調整された変種に最適化され、事前訓練されたLLMから微調整されたLLMへ継承された脆弱性が明らかになった。
この継承をさらに検証するため、我々は表現レベル探索を行い、転送可能なプロンプトが予め訓練された隠蔽状態内で線形に分離可能であることを示す。
この知見に基づいて,転送可能性関連方向を最適化するPGP(Probe-Guided Projection)攻撃を提案する。
複数のLLMファミリーにわたる実験と様々な微調整されたタスクにより、PGPの強い移行成功が確認され、プレトレイン・トゥ・ファインチュンパラダイムに固有のセキュリティリスクが強調された。
関連論文リスト
- Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling [1.0266286487433585]
新しい大規模言語モデル(LLM)アーキテクチャを採用する前に、脆弱性を正確に理解することが重要である。
既存の評価を信頼することは困難であり、しばしばLLMから結論を導き出す。
インジェクション攻撃の迅速化を目的としたLCM脆弱性評価のための,原則的かつ実用的なエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T09:22:22Z) - Watch your steps: Dormant Adversarial Behaviors that Activate upon LLM Finetuning [16.543554028816477]
オープンウェイトなLarge Language Models (LLM) はタスク固有のパフォーマンス改善を実現するための標準的なプラクティスである。
これまで、微調整は、良質なデータセットのトレーニングが予測可能な振る舞いをもたらす、制御されたセキュアなプロセスとみなされてきた。
我々は、初めて、敵が不正なLLMを作成でき、性能が良く、良心的でありながら、下流のユーザーによって微調整された敵の行動を示すことを実証した。
論文 参考訳(メタデータ) (2025-05-22T11:59:44Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。