論文の概要: Intent Laundering: AI Safety Datasets Are Not What They Seem
- arxiv url: http://arxiv.org/abs/2602.16729v1
- Date: Tue, 17 Feb 2026 18:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.252075
- Title: Intent Laundering: AI Safety Datasets Are Not What They Seem
- Title(参考訳): インテントの洗浄:AIの安全性データセットは彼らが見ているものではない
- Authors: Shahriar Golchin, Marc Wetter,
- Abstract要約: 我々は2つの観点から広く利用されているAI安全データセットの品質を評価する。
分離して、これらのデータセットが現実世界の攻撃をどれだけうまく反映しているかを調べる。
実際に、これらのデータセットが真に安全リスクを計測するかどうかを評価する。
- 参考スコア(独自算出の注目度): 4.769747792846004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world attacks based on three key properties: driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world attacks due to their overreliance on triggering cues. In fact, once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated and how real-world adversaries behave.
- Abstract(参考訳): 我々は、広く使われているAI安全データセットの品質を、2つの観点から体系的に評価する。
分離して、これらのデータセットが3つの重要な特性に基づいて現実世界の攻撃をいかにうまく反映しているかを検討する。
これらのデータセットは、現実世界の攻撃と比較して非現実的な安全メカニズムを明示的に引き起こすことを意図した、過剰なネガティブ/センシティブな意味を持つ単語やフレーズという、"トリガーキュー"に重きを置いている。
実際には、これらのデータセットが安全性のリスクを真に測定しているか、あるいは単にリファインダーをトリガーすることによってリファインダーを誘発するかを評価する。
攻撃(データポイント)からのトリガーキューを抽象化し、悪意のある意図と関連するすべての詳細を厳格に保存する手順である。
我々の結果は、現在のAI安全データセットが現実世界の攻撃を忠実に表現できないことを示唆している。
実際、これらのキューが取り除かれると、ジェミニ3 Proやクロード・ソネット3.7など、これまで評価されていたすべての「合理的に安全な」モデルが安全でないようになる。
さらに、インテント洗浄を脱獄技術として適用すると、ブラックボックスアクセスの90%から98%を超える高い攻撃成功率を達成することができる。
全体としては、モデル安全性の評価方法と現実世界の敵の行動との間には、大きな不一致があることが判明した。
関連論文リスト
- JT-Safe: Intrinsically Enhancing the Safety and Trustworthiness of LLMs [53.59414720003988]
大規模な言語モデルの不安全と幻覚は、本質的には事前学習に由来すると広く合意されている。
データは広大なので、事実の誤り、論理的不整合、あるいは分布バイアスのデータを完全に浄化することはほとんど不可能です。
産業シナリオを反映した大量のデータ量を増やすことを目的として, プレトレーニングデータを世界規模で拡張する手法を提案する。
論文 参考訳(メタデータ) (2025-10-20T02:12:49Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - Practical Adversarial Attacks on Stochastic Bandits via Fake Data Injection [5.311665176634655]
盗賊に対する敵対的な攻撃は伝統的にいくつかの非現実的な仮定に依存してきた。
現実的な敵の制約を反映したより実用的な脅威モデルを提案する。
我々は、このモデルの下で効率的な攻撃戦略を設計し、大小制約と時間的制約の両方に明示的に対処する。
論文 参考訳(メタデータ) (2025-05-28T03:47:13Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。