論文の概要: Adaptive Probe-based Steering for Robust LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2605.20286v1
- Date: Tue, 19 May 2026 06:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.269457
- Title: Adaptive Probe-based Steering for Robust LLM Jailbreaking
- Title(参考訳): ロバストLDMジェイルブレークのための適応プローブベースステアリング
- Authors: Junxi Chen, Junhao Dong, Xiaohua Xie,
- Abstract要約: モデル抽出のアイデアを活用し、学習されたステアリングベクトルを導いて理想的なベクトルを近似する。
提案手法は,プローブベースステアリングの有効性とロバスト性を顕著に向上することを示した。
- 参考スコア(独自算出の注目度): 45.44490652074352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated the potential of contrastive steering for jailbreaking Large Language Models (LLMs). However, existing methods rely on limited and inherently biased contrastive prompts and require laborious manual tuning of steering strength, limiting their robustness and effectiveness. In this paper, we leverage the idea of model extraction to guide the learned steering vectors to approximate the ideal one and propose tuning the steering strength adaptively based on contrastive activations' statistics. Experiments demonstrate that our method notably improves the effectiveness and robustness of probe-based steering, without any extra contrastive prompts or laborious manual tuning. Being an attack paper, this paper focuses on revealing the breakdown of fortified LLMs, raising the average harmfulness score from 6\% to 70\%. Our code is available at https://github.com/fhdnskfbeuv/adaptiveSteering.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)をジェイルブレイクするための対照的なステアリングの可能性を示している。
しかし、既存の手法は、限定的で本質的にバイアスのある対照的なプロンプトに依存しており、その頑丈さと有効性を制限するために、操舵力の厳密なマニュアルチューニングを必要としている。
本稿では,モデル抽出の考え方を活用し,学習したステアリングベクトルを導出して理想を近似し,対照的なアクティベーション統計に基づく操舵強度を適応的に調整する手法を提案する。
実験により,プローブベースの操舵の有効性とロバスト性は,余分な対照的なプロンプトや手動チューニングを伴わずに向上することが示された。
攻撃紙として, 要塞化LDMの破壊を明らかにすることに焦点を当て, 平均有害度スコアを6\%から70\%に引き上げた。
私たちのコードはhttps://github.com/fhdnskfbeuv/adaptiveSteering.comで利用可能です。
関連論文リスト
- Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection [8.819278296219071]
大規模言語モデル(LLM)は複雑なユーザ命令に従わないことが多い。
アクティベーションステアリング技術はモデル内部を操作することを目的としているが、オーバーステアリングの危険性がある。
余分なデータセットを使わずにKVキャッシュをスケーリングすることで、操舵強度を動的に調節する新しい操舵法であるDIRECTERを導入する。
論文 参考訳(メタデータ) (2026-03-06T09:49:32Z) - ATLAS: Adaptive Test-Time Latent Steering with External Verifiers for Enhancing LLMs Reasoning [13.073472989807675]
我々はATLAS(Adaptive Test-Time Latent Steering)を提案する。
ATLASは外部の軽量潜伏検証器を用いて推論時のステアリング決定を動的に制御する。
複数の数学的推論ベンチマークの実験は、ATLASがバニラ復号化と固定ステアリングベースラインの両方を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-06T15:27:24Z) - AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文 参考訳(メタデータ) (2025-06-08T07:03:28Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks [16.508109544083496]
視覚言語モデル(VLM)は、敵の攻撃にさらされると意図しない有害なコンテンツを生成できる。
既存の防御(例えば、入力前処理、敵の訓練、応答評価に基づく手法)は、実世界の展開には実用的ではないことが多い。
本稿では,VLM攻撃に対する対向的特徴方向からモデルを誘導し,効果的かつ効果的な防御法であるASTRAを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:17:17Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。