論文の概要: Hallucination as Exploit: Evidence-Carrying Multimodal Agents
- arxiv url: http://arxiv.org/abs/2605.19192v1
- Date: Mon, 18 May 2026 23:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.029816
- Title: Hallucination as Exploit: Evidence-Carrying Multimodal Agents
- Title(参考訳): 爆発としての幻覚:マルチモーダル剤のエビデンスキャリング
- Authors: Guijia Zhang, Hao Zheng, Harry Yang,
- Abstract要約: 本稿では,自由形式モデルテキストを許容不可能な証拠として扱うマルチモーダルエージェントを提案する。
ECAは各ツールコールを行動クリティカルな述語に分解し、制約されたDOM/OCR/AX検証者から型付き証明書を取得し、決定論的ゲートはそれらの証明書がサポートする特権のみを付与する。
- 参考スコア(独自算出の注目度): 10.441697487723568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal agents use screenshots, documents, and webpages to choose tool calls. When a false visual claim triggers a click, email, extraction, or transfer, hallucination becomes an authorization failure rather than an answer-quality error. We formalize this failure mode as hallucination-to-action conversion: an unsupported perceptual claim supplies the precondition that makes a privileged action appear permitted. We propose evidence-carrying multimodal agents (ECA), which treat free-form model text as inadmissible evidence. ECA decomposes each tool call into action-critical predicates, obtains typed certificates from constrained DOM/OCR/AX verifiers, and lets a deterministic gate grant only the privileges those certificates support. The architecture does not hide perception error; it converts opaque model belief into named verifier, schema, and implementation residuals. Verifier red-teaming over 1,900 attacks exposes this residual directly: four targeted hardening steps reduce gate bypass from 15% to 1.3%. With content-derived certificates, ECA obtains 0% unsafe-action rate on a 200-task end-to-end pipeline (Wilson 95% upper bound 2.67%) and a 120-task browser proof-of-concept (upper bound 4.3%). A direct HACR audit on 500 stratified task keys shows that unsupported action-critical claims reach unsafe execution for naive agents (100.0%) and prompt-only defense (49.6%), but not for ECA. Oracle-certificate replay on 7,488 GPT-5.4 benchmark traces serves as a gate-correctness sanity check, and neural judge baselines remain bypassable under the same threat model. The resulting principle is simple: model language may propose actions, but external evidence must authorize them.
- Abstract(参考訳): マルチモーダルエージェントは、ツールコールを選択するためにスクリーンショット、ドキュメント、Webページを使用する。
偽の視覚的クレームがクリック、メール、抽出、転送をトリガーすると、幻覚は応答品質のエラーではなく認証の失敗となる。
我々は、この障害モードを幻覚から行動への変換として形式化する。
本稿では,自由形式モデルテキストを不許容な証拠として扱うエビデンス搬送型マルチモーダルエージェント(ECA)を提案する。
ECAは各ツールコールを行動クリティカルな述語に分解し、制約されたDOM/OCR/AX検証者から型付き証明書を取得し、決定論的ゲートはそれらの証明書がサポートする特権のみを付与する。
アーキテクチャは認識エラーを隠さず、不透明なモデルの信念を名前付き検証器、スキーマ、実装残余に変換する。
1,900以上の攻撃の検証は、この残余を直接露呈する: 4つの目標硬化ステップは、ゲートバイパスを15%から1.3%に減少させる。
コンテンツ由来の証明書により、ECAは200タスクのエンドツーエンドパイプライン(Wilson 95%上界2.67%)と120タスクのブラウザの概念実証(upper bound 4.3%)で0%の安全動作率を得る。
500の階層化されたタスクキーに関するHACRの直接監査では、サポート対象のアクションクリティカルなクレームは、ナイーブエージェント(100.0%)とプロンプトオンリーのディフェンス(49.6%)に対して安全でない実行に到達しているが、ECAには及ばない。
7,488 GPT-5.4ベンチマークのOracle公認のリプレイは、ゲート精度の正当性チェックとして機能し、ニューラルジャッジベースラインは、同じ脅威モデルの下ではバイパス可能である。
モデル言語はアクションを提案できるが、外部の証拠はそれらを承認しなければならない。
関連論文リスト
- Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning [0.9236074230806578]
Oracle Poisoningは、相手が構造化知識グラフを破損させる攻撃クラスである。
プロンプトインジェクションとは異なり、Oracle Poisoningはデータエージェントを操作します。
プロダクション4200万ノードのコード知識グラフに対する6つの攻撃シナリオを実演する。
論文 参考訳(メタデータ) (2026-05-10T23:55:13Z) - Certified Purity for Cognitive Workflow Executors: From Static Analysis to Cryptographic Attestation [0.0]
以前の3層ガバナンスアーキテクチャは、ガバナンスの完全性、証明の完全性、そして過度な効果の不可能性を証明します。
本稿は4つのメカニズムを通してギャップを埋める。
構成による構造的純度、BEAMの5つのバイパスクラスすべてに対する排除、証明書の完全性、ゲート完全性という4つの定理を証明します。
論文 参考訳(メタデータ) (2026-05-01T19:04:37Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents [0.0]
NabaOSは対話型エージェントのための軽量な検証フレームワークである。
ソースによってAI応答内のすべてのクレームを分類する。
製造されたツールの実行の94.2%、誤り回数の87.6%、虚偽の欠席債権の78.4%を検知する。
論文 参考訳(メタデータ) (2026-03-09T20:45:41Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。