論文の概要: Red-teaming Activation Probes using Prompted LLMs
- arxiv url: http://arxiv.org/abs/2511.00554v1
- Date: Sat, 01 Nov 2025 13:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.841536
- Title: Red-teaming Activation Probes using Prompted LLMs
- Title(参考訳): プロンプトLDMを用いた赤チーム活性化プローブ
- Authors: Phil Blandfort, Robert Graham,
- Abstract要約: アクティベーションプローブは、低コストとレイテンシのため、AIシステムにとって魅力的なモニターだが、現実の堅牢性はまだ探索されていない。
現実的でブラックボックスの対向的な圧力の下では、障害モードはどのように発生しますか?
既製のLCMを反復的フィードバックとコンテキスト内学習(ICL)でラップする,軽量なブラックボックスレッドチーム方式を提案する。
高精細度相互作用のためのプローブを用いたケーススタディを実行することで、私たちのアプローチがSOTAプローブに関する貴重な洞察を発見できることを示す。
- 参考スコア(独自算出の注目度): 0.33985395340995606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation probes are attractive monitors for AI systems due to low cost and latency, but their real-world robustness remains underexplored. We ask: What failure modes arise under realistic, black-box adversarial pressure, and how can we surface them with minimal effort? We present a lightweight black-box red-teaming procedure that wraps an off-the-shelf LLM with iterative feedback and in-context learning (ICL), and requires no fine-tuning, gradients, or architectural access. Running a case study with probes for high-stakes interactions, we show that our approach can help discover valuable insights about a SOTA probe. Our analysis uncovers interpretable brittleness patterns (e.g., legalese-induced FPs; bland procedural tone FNs) and reduced but persistent vulnerabilities under scenario-constraint attacks. These results suggest that simple prompted red-teaming scaffolding can anticipate failure patterns before deployment and might yield promising, actionable insights to harden future probes.
- Abstract(参考訳): アクティベーションプローブは、低コストとレイテンシのため、AIシステムにとって魅力的なモニターだが、現実の堅牢性はまだ探索されていない。
現実的でブラックボックスの対向的な圧力の下では、障害モードはどのように発生しますか?
我々は,既製のLCMを反復的フィードバックとコンテキスト内学習(ICL)でラップし,微調整や勾配,アーキテクチャアクセスを必要としない,軽量なブラックボックスレッドチーム方式を提案する。
高精細度相互作用のためのプローブを用いたケーススタディを実行することで、私たちのアプローチがSOTAプローブに関する貴重な洞察を発見できることを示す。
解析の結果,解釈可能な脆性パターン(例:合法性FPs,bland procedural tone FNs)と,シナリオ制約攻撃による持続的脆弱性が明らかになった。
これらの結果は、単純な赤チームのスキャフォールディングがデプロイメント前に障害パターンを予測し、将来的なプローブを強化するための有望で実用的な洞察をもたらす可能性があることを示唆している。
関連論文リスト
- Microsaccade-Inspired Probing: Positional Encoding Perturbations Reveal LLM Misbehaviours [5.465971544087648]
我々は、人間の知覚の隠れたダイナミクスを明らかにする小さな不随意眼球運動であるマイクロサケードからインスピレーションを得ている。
大規模言語モデル(LLM)の類似した探索法を提案する。
本手法では、微調整やタスク固有の監視は必要とせず、多様な設定で障害を検出する。
論文 参考訳(メタデータ) (2025-10-01T01:24:59Z) - When LLMs Copy to Think: Uncovering Copy-Guided Attacks in Reasoning LLMs [30.532439965854767]
大規模言語モデル(LLM)は、脆弱性検出やコード理解といったタスクを可能にする自動コード解析に不可欠なものになっている。
本稿では,CGA(Copy-Guided Attacks)と呼ばれる,新たなプロンプトベースの攻撃のクラスを特定し,検討する。
CGAは、コード解析タスクにおいて、無限ループ、早期終了、偽の拒絶、意味的歪みを確実に誘導することを示す。
論文 参考訳(メタデータ) (2025-07-22T17:21:36Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Adaptive Stress Testing Black-Box LLM Planners [6.506759042895813]
大規模言語モデル(LLM)は、意思決定タスク全体にわたる一般化の成功を最近証明した。
しかし、安全でないアウトプットと望ましくないアウトプットを幻覚させる傾向はリスクを引き起こす。
このような障害の検出は,特に安全クリティカルなシナリオにおいて必要である,と我々は主張する。
論文 参考訳(メタデータ) (2025-05-08T21:50:43Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections [17.49244337226907]
バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。
提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
論文 参考訳(メタデータ) (2023-11-15T23:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。