論文の概要: False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
- arxiv url: http://arxiv.org/abs/2509.03888v1
- Date: Thu, 04 Sep 2025 05:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.056265
- Title: False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
- Title(参考訳): False Sense of Security: 調査に基づく悪意のある入力検出が一般化に失敗した理由
- Authors: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen,
- Abstract要約: 大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
- 参考スコア(独自算出の注目度): 30.448801772258644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can comply with harmful instructions, raising serious safety concerns despite their impressive capabilities. Recent work has leveraged probing-based approaches to study the separability of malicious and benign inputs in LLMs' internal representations, and researchers have proposed using such probing methods for safety detection. We systematically re-examine this paradigm. Motivated by poor out-of-distribution performance, we hypothesize that probes learn superficial patterns rather than semantic harmfulness. Through controlled experiments, we confirm this hypothesis and identify the specific patterns learned: instructional patterns and trigger words. Our investigation follows a systematic approach, progressing from demonstrating comparable performance of simple n-gram methods, to controlled experiments with semantically cleaned datasets, to detailed analysis of pattern dependencies. These results reveal a false sense of security around current probing-based approaches and highlight the need to redesign both models and evaluation protocols, for which we provide further discussions in the hope of suggesting responsible further research in this direction. We have open-sourced the project at https://github.com/WangCheng0116/Why-Probe-Fails.
- Abstract(参考訳): 大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究では、LLMの内部表現における悪意のある入力と良性入力の分離性の研究に、探索に基づくアプローチが活用されている。
我々はこのパラダイムを体系的に再検討する。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
制御された実験を通して、この仮説を確認し、学習した特定のパターンを同定する。
本研究は,単純なn-gram法に匹敵する性能を示す体系的なアプローチから,セマンティック・クリーニングされたデータセットを用いた制御実験,パターン依存の詳細な解析までを踏襲する。
これらの結果は,現在の探索に基づくアプローチに関する誤ったセキュリティ意識を明らかにし,モデルと評価プロトコルの両方を再設計する必要性を強調した上で,この方向性に関するさらなる研究を提案するために,さらなる議論を行う。
https://github.com/WangCheng0116/Why-Probe-Fails.com/WangCheng0116/Why-Probe-Fails.comでこのプロジェクトをオープンソース化しました。
関連論文リスト
- On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。
これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。
分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2025-07-11T20:58:21Z) - LLM Performance for Code Generation on Noisy Tasks [0.41942958779358674]
大規模言語モデル(LLM)は、テキストが人間の読み手には理解できないレベルまで難解なタスクを解くことができることを示す。
汚染されたデータセットと目に見えないデータセットの異なる性能劣化パターンの実証的証拠を報告する。
そこで本研究では, 難燃化下での性能低下を, データセット汚染検出の可能な戦略として提案する。
論文 参考訳(メタデータ) (2025-05-29T16:11:18Z) - A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。
本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文 参考訳(メタデータ) (2025-04-11T10:18:13Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Good-looking but Lacking Faithfulness: Understanding Local Explanation
Methods through Trend-based Testing [13.076171586649528]
我々は,説明手法の忠実さを評価し,従来の信頼度試験がランダムな支配問題に遭遇していることを見出した。
傾向試験に適合し, 複雑なデータに対する説明手法を初めて評価した。
論文 参考訳(メタデータ) (2023-09-09T14:44:39Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。