論文の概要: JECA^2: Judgment-Explanation Consistent Adversarial Attack against Forensic Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.28609v1
- Date: Wed, 27 May 2026 15:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.165099
- Title: JECA^2: Judgment-Explanation Consistent Adversarial Attack against Forensic Vision-Language Models
- Title(参考訳): JECA^2: 法医学的ビジョン・ランゲージモデルに対する判断・説明整合的敵対攻撃
- Authors: Jiachen Qian,
- Abstract要約: 近年,画像の改ざんを検知し,自然言語による説明を提供するために,VLM(Forensic Vision-Language Model)が開発されている。
既存の敵の攻撃はモデルの二分判断を覆すことを目的としており、それに伴う説明は法医学的な手がかりを明らかにし、攻撃された判断と矛盾する可能性がある。
JECA2は、視覚的属性を共同でリダイレクトし、テキストによる説明を目標判定と整合させる、制御されたホワイトボックスのレッドチーム診断である。
- 参考スコア(独自算出の注目度): 1.0998907972211756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forensic vision-language models (VLMs) have recently been developed to detect image tampering and provide natural-language explanations. However, their robustness against adversarial manipulation remains underexplored. Existing adversarial attacks typically aim to flip the model's binary judgment, while the accompanying explanation may still reveal forensic cues and contradict the attacked judgment. In this paper, we study judgment-explanation consistent adversarial attacks against forensic VLMs and propose JECA^2, a controlled white-box red-team diagnostic that jointly redirects visual attribution and aligns textual explanations with the target judgment. On the visual side, JECA^2 uses Grad-CAM-guided perturbations to divert attribution from tampered regions toward benign regions. On the textual side, it optimizes prompt embeddings toward authenticity-affirming semantics under a token-proximity constraint. Experiments on forensic VLM benchmarks show that JECA^2 achieves higher attack success and automated judgment-explanation consistency than implemented baselines under white-box threat settings, while transfer to closed-source VLMs remains measurable but limited. Our results highlight a consistency failure mode in explanation-based forensic VLMs and motivate future robustness evaluation beyond binary detection accuracy.
- Abstract(参考訳): 近年,画像の改ざんを検知し,自然言語による説明を提供するために,VLM(Forensic Vision-Language Model)が開発されている。
しかし、敵の操作に対する頑強さはいまだに解明されていない。
既存の敵の攻撃は、通常、モデルの二分判断を覆すことを目的としているが、それに伴う説明は、なおも法医学的な手がかりを明らかにし、攻撃された判断と矛盾する可能性がある。
本稿では,法医学的 VLM に対する判定・説明の一貫した敵対的攻撃について検討し,視覚的帰属を共同でリダイレクトし,テキストによる説明を対象判断と整合させる制御されたホワイトボックス・レッドチーム診断である JECA^2 を提案する。
視覚面では、JECA^2はGrad-CAM誘導摂動を用いて、改質された領域から良性領域へ帰属する。
テキスト側では、トークン親和性制約の下での真正性確認セマンティクスへの迅速な埋め込みを最適化する。
法医学的なVLMベンチマークの実験では、JECA^2はホワイトボックスの脅威設定の下で実装されたベースラインよりも高い攻撃成功と自動判断・説明一貫性を達成する一方で、クローズドソースのVLMへの転送は測定可能であるが制限されている。
本結果は,説明に基づく法医学的VLMにおける整合性障害モードを強調し,二項検出精度を超えた将来のロバスト性評価を動機付けるものである。
関連論文リスト
- Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification [52.784239635604735]
VVI-ReIDは、静止画像以外にも時間情報が付加的な手がかりを提供する、全日監視のための重要な技術である。
既存のアプローチは、高価なクロスモダリティアノテーションによる完全な教師付き学習に大きく依存しており、スケーラビリティが制限されています。
そこで,本研究では,ビデオの先行を明示的に活用するCausal Bootstrapped Alignmentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:15:59Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models [11.304852987259041]
本稿では,ドメイン固有の知識と意味的妥当性を活かした,コンテキスト認識型攻撃シナリオを3つ紹介する。
textbfSCOUT (Saliency-based Classification of Untrusted Tokens) はトークンレベルの塩分分析によりバックドアトリガを識別する新しい防御フレームワークである。
論文 参考訳(メタデータ) (2025-12-10T17:25:55Z) - Self-Calibrated Consistency can Fight Back for Adversarial Robustness in Vision-Language Models [31.920092341939593]
自己キャリブレーション・コンシスタンシー(Self-Calibrated Consistency)は、敵の攻撃に対する効果的なテストタイム防衛である。
SCCは精度を維持しながら、CLIPのゼロショットロバスト性を一貫して改善する。
これらの知見は、CLIPから逆向きに堅牢なパラダイムを確立する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-26T18:37:12Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Semantic-Preserving Adversarial Code Comprehension [75.76118224437974]
本稿では,セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アタック(SPACE)を提案する。
実験と分析により、SPACEは、コードに対するPrLMのパフォーマンスを高めながら、最先端の攻撃に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-12T10:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。