論文の概要: Hallucination as Exploit: Evidence-Carrying Multimodal Agents
- arxiv url: http://arxiv.org/abs/2605.19192v2
- Date: Wed, 20 May 2026 21:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.891194
- Title: Hallucination as Exploit: Evidence-Carrying Multimodal Agents
- Title(参考訳): 爆発としての幻覚:マルチモーダル剤のエビデンスキャリング
- Authors: Guijia Zhang, Hao Zheng, Harry Yang,
- Abstract要約: マルチモーダルエージェントはますます、スクリーンショットやドキュメント、Webページからツールコールを選択している。
本稿では,自由形式モデルテキストを不許容な証拠として扱うエビデンス搬送型マルチモーダルエージェント(ECA)を提案する。
ECAは不透明なモデルの信念を検証者、スキーマ、実装レベルで監査可能な残留物に変換する。
- 参考スコア(独自算出の注目度): 10.441697487723568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal agents increasingly choose tool calls from screenshots, documents, and webpages, where a false perceptual claim can turn hallucination from an answer-quality error into an authorization failure. We formalize this failure mode as hallucination-to-action conversion: an unsupported claim supplies the precondition for a privileged action. We propose evidence-carrying multimodal agents (ECA), which treat free-form model text as inadmissible evidence, decompose each tool call into action-critical predicates, obtain typed certificates from constrained DOM/OCR/AX verifiers, and use a deterministic gate to authorize only the privileges those certificates support. Rather than hiding perception error, ECA converts opaque model belief into auditable residuals at the verifier, schema, and implementation levels. Verifier red-teaming across 17 canonical attack categories shows that four targeted hardening steps are each necessary; after hardening, canonical gate bypass is 0/1,700 (Wilson 95% upper bound 0.22%). With content-derived certificates, ECA observes zero unsafe executions on 200 end-to-end tasks (Wilson 95% upper bound 2.67%) and 120 browser tasks (upper bound 4.3%). A HACR audit on 500 stratified task keys shows that unsupported action-critical claims reach unsafe execution for naive agents (100.0%) and prompt-only defenses (49.6%), but not for ECA. Oracle-certificate replay over 7,488 GPT-5.4 traces isolates gate correctness, while neural judge baselines still admit most unsafe actions under the same threat model. The resulting principle is simple: model language may propose tool use, but certified predicates must authorize it.
- Abstract(参考訳): マルチモーダルエージェントはますます、スクリーンショットやドキュメント、Webページからツールコールを選択するようになっています。
我々は、この障害モードを幻覚から行動への変換として形式化する。
本稿では,自由形式モデルテキストを許容不可能な証拠として扱い,各ツールコールを行動クリティカルな述語に分解し,制約付きDOM/OCR/AX検証器から型付き証明書を取得し,決定ゲートを用いてそれらの証明をサポートする特権のみを認証する,エビデンス対応マルチモーダルエージェント(ECA)を提案する。
認識エラーを隠すのではなく、ECAは不透明なモデルの信念を検証者、スキーマ、実装レベルで監査可能な残差に変換する。
17の標準的攻撃カテゴリをまたいだ検証結果から、目標となる4つの硬化ステップがそれぞれ必要であることが示され、硬化後、標準ゲートバイパスは0/1,700(ウィルソン95%上界0.22%)である。
コンテンツ由来の証明書により、ECAは200のエンドツーエンドタスク(Wilson 95%上限2.67%)と120のブラウザタスク(上限4.3%)の安全でない実行を観測する。
500の階層化されたタスクキーに関するHACR監査では、サポート対象のアクションクリティカルなクレームは、ナイーブエージェント(100.0%)とプロンプトオンリーのディフェンス(49.6%)に対して安全でない実行に到達しているが、ECAには及ばない。
Oracleが認証した7,488 GPT-5.4トレースのリプレイはゲートの正しさを隔離するが、ニューラルジャッジベースラインは依然として同じ脅威モデルの下で最も安全でないアクションを認めている。
モデル言語はツールの使用を提案するが、認定された述語はそれを認可する必要がある。
関連論文リスト
- Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning [0.9236074230806578]
Oracle Poisoningは、相手が構造化知識グラフを破損させる攻撃クラスである。
プロンプトインジェクションとは異なり、Oracle Poisoningはデータエージェントを操作します。
プロダクション4200万ノードのコード知識グラフに対する6つの攻撃シナリオを実演する。
論文 参考訳(メタデータ) (2026-05-10T23:55:13Z) - Certified Purity for Cognitive Workflow Executors: From Static Analysis to Cryptographic Attestation [0.0]
以前の3層ガバナンスアーキテクチャは、ガバナンスの完全性、証明の完全性、そして過度な効果の不可能性を証明します。
本稿は4つのメカニズムを通してギャップを埋める。
構成による構造的純度、BEAMの5つのバイパスクラスすべてに対する排除、証明書の完全性、ゲート完全性という4つの定理を証明します。
論文 参考訳(メタデータ) (2026-05-01T19:04:37Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents [0.0]
NabaOSは対話型エージェントのための軽量な検証フレームワークである。
ソースによってAI応答内のすべてのクレームを分類する。
製造されたツールの実行の94.2%、誤り回数の87.6%、虚偽の欠席債権の78.4%を検知する。
論文 参考訳(メタデータ) (2026-03-09T20:45:41Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。