論文の概要: RedEdit: Agentic Red-Teaming of Image Safety Classifiers via MCTS-Guided Photo-Editing
- arxiv url: http://arxiv.org/abs/2606.06140v1
- Date: Thu, 04 Jun 2026 13:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.809334
- Title: RedEdit: Agentic Red-Teaming of Image Safety Classifiers via MCTS-Guided Photo-Editing
- Title(参考訳): RedEdit: MCTS-Guided Photo-Editingによる画像安全分類器のエージェント的再チーム化
- Authors: Weilin Lin, Ziqi Lin, Zhenxing Zhou, Jianze Li, Tong Zhang, Hui Xiong, Li Liu,
- Abstract要約: RedEditは、編集ツールのシーケンスに対する検索問題として、写真編集の回避を定式化する、新しいブラックボックスのレッドチームエージェントである。
セマンティックにターゲットされた候補編集とモンテカルロ木探索プランナーを生成し、非効率な編集パスからバックトラックしながら、有望な編集パスを優先順位付けする。
UnsafeBenchに関する我々の実験は、重大なシステム上の脆弱性を明らかにします。
- 参考スコア(独自算出の注目度): 27.502738091136763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image safety classifiers serve as a critical component of contemporary content moderation systems on the internet. However, their resilience against user-style malicious image editing remains underexplored. Such behaviors are highly prevalent in daily scenarios but difficult to fully reproduce. To explore this vulnerability, we introduce RedEdit, a novel black-box red-teaming agent that formulates photo-editing evasion as a combinatorial search problem over edit-tool sequences. It adopts a Vision-Language-Model (VLM)-based proposer to generate semantically targeted candidate edits and a Monte Carlo Tree Search (MCTS) planner to prioritize promising edit paths while backtracking from ineffective ones. Together, the proposer and planner instantiate two key capabilities of human attackers, i.e., domain knowledge and iterative backtracking, respectively, to reproduce this practical threat. Our extensive experiments on UnsafeBench reveal profound systemic vulnerabilities: fewer than two edits on average enable 76.2% of unsafe images to evade detectors, while retaining 93.0% malicious semantics, meaning that such manipulated content remains perceptually malicious to humans while easily bypassing automated moderation. We therefore appeal to the community for more attention to this overlooked practical threat.
- Abstract(参考訳): 画像安全分類器は、インターネット上の現代コンテンツモデレーションシステムの重要な構成要素である。
しかし、ユーザスタイルの悪意のある画像編集に対するレジリエンスはいまだに未調査である。
このような行動は日々のシナリオで多く見られるが、完全に再現することは困難である。
この脆弱性を探索するために、編集ツールのシーケンスに対する組合せ探索問題として、写真編集回避を定式化する新しいブラックボックスレッドピーピングエージェントであるRedEditを紹介した。
VLM(Vision-Language-Model)ベースのプロジェクタを採用して、セマンティックなターゲット候補編集を生成するとともに、MCTS(Monte Carlo Tree Search)プランナを使用して、予測可能な編集パスを優先し、非効率な編集パスからバックトラックする。
提案者とプランナーは共に、この現実的な脅威を再現するために、人間の攻撃者、すなわちドメイン知識と反復的追跡の2つの重要な機能をインスタンス化する。
平均で2回未満の編集では、76.2%の安全でない画像が検出を回避でき、93.0%の悪意のあるセマンティクスを維持している。
したがって、我々はこの見過ごされた現実的な脅威にもっと注意を払ってコミュニティに訴える。
関連論文リスト
- Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models [31.243185346527255]
現代のテキスト・トゥ・イメージ(T2I)モデルでは、正当性のある段落長のテキストを描画できるようになった。
我々は、敵がT2Iシステムを強制して有害なテキストペイロードを含む画像を生成する、記述的ジェイルブレイクを識別し、形式化する。
敵のプロンプトを3つの機能層に分解するブラックボックス攻撃フレームワークであるEtchを提案する。
論文 参考訳(メタデータ) (2026-04-07T13:16:07Z) - When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models [19.655310421085435]
本稿では,視覚的・視覚的ジェイルブレイク攻撃として視覚中心ジェイルブレイク攻撃(VJA)を提案する。
VJAは視覚入力を通じて悪意のある命令を純粋に伝達する。
イントロスペクティブなマルチモーダル推論に基づく無訓練防衛を提案する。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - Jailbreaks on Vision Language Model via Multimodal Reasoning [10.066621451320792]
本稿では,安全フィルタをバイパスできるステルスシープロンプトの構築を促す,ポストトレーニングのChain-of-Thoughtを利用したフレームワークを提案する。
また,モデルフィードバックに基づいて反復的に入力画像を摂動するReAct型適応雑音発生機構を提案する。
論文 参考訳(メタデータ) (2026-01-29T23:09:24Z) - Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models [73.43013217318965]
マルチモーダル・プロンプト・デカップリング・アタック(MPDA)
MPDAは画像モダリティを使用して、元の安全でないプロンプトの有害なセマンティックコンポーネントを分離する。
ビジュアル言語モデルは、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために画像キャプションを生成する。
論文 参考訳(メタデータ) (2025-09-21T11:22:32Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - Responsible Visual Editing [53.45295657891099]
画像内の特定の概念を修正し、変更を最小化しながら、より責任を負うようにする。
有害な画像が研究に与える影響を緩和するため、人間の代わりにテディベアを用いて有害な情報を表現した透明でパブリックなデータセットAltBearを作成しました。
AltBearデータセットは、実画像に見られる有害な内容とよく一致し、一貫した実験的な評価を提供する。
論文 参考訳(メタデータ) (2024-04-08T14:56:26Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Preemptive Image Robustification for Protecting Users against
Man-in-the-Middle Adversarial Attacks [16.017328736786922]
Man-in-the-Middleの敵対者は、ウェブユーザーがオンラインでアップロードした画像を悪意を持って傍受し、妨害する。
この種の攻撃は、単純なパフォーマンス劣化の上に厳しい倫理的懸念を引き起こす可能性がある。
本研究では, 対向摂動に頑健な自然画像近傍の点を求める2段階最適化アルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-12-10T16:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。