論文の概要: What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents
- arxiv url: http://arxiv.org/abs/2606.02668v1
- Date: Mon, 01 Jun 2026 11:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.50368
- Title: What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents
- Title(参考訳): ブラックボックスのLLMエージェントのコンセント・インテリジェンス
- Authors: Xiaoqi Weng,
- Abstract要約: コーディングエージェントは、ヒューマン・イン・ザ・ループの承認ダイアログの背後で連続的なアクションをゲートするが、ダイアログはエージェント自身によってナレーションされる。
本稿では、エージェント承認チャネルにWhat You See Is What You Signをインポートすることで、欠落したプロパティであるIntegityを命名する。
人間に示されるアクションは、エージェントのナレーションではなく、境界における実際のアクションから信頼できる仲介者によってレンダリングされなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Coding agents gate consequential actions behind a human-in-the-loop approval dialog, but the dialog is narrated by the agent itself: the human approves a summary the agent writes. The Lies-in-the-Loop (LITL) attack shows that summary is forgeable, so a compromised agent can show a benign description while a different action runs. This paper names the missing property, Consent Integrity, by importing What You See Is What You Sign (WYSIWYS) and the trusted-path property into the agent approval channel: the action shown to the human must be rendered by a trusted mediator from the real action at the boundary, not the agent's narration, over a path the agent cannot spoof, and bound to the exact action that executes. Two twists distinguish it from classical WYSIWYS: the renderer is the adversary, and the boundary ground truth is a low-level event that must be decoded without trusting the agent. Since no decoder is complete, the realizable target is analyzer-relative: whatever the analyzer cannot classify is surfaced as uninspectable rather than silently approved. A prototype implements the analyzer, renderer, and bind-to-execution; total mediation and the trusted path are specified but assumed, not implemented. On GTFOBins, an independent corpus of 1330 trusted-tool abuses, the prototype silently passes 10.0% (every instance through a trusted tool); on tldr, 28,798 normal-usage commands, it marks 87.0% uninspectable. These two independent measurements bracket the design's central tension: the trust list that bounds silent passes is the same one that drives over-prompting, and a boundary-only mediator can move along that frontier but not escape it. The contribution is the property, the mechanism, and an honest position on that frontier, not a solved defense.
- Abstract(参考訳): コーディングエージェントは、ヒューマン・イン・ザ・ループの承認ダイアログの背後にある連続的なアクションをゲートするが、ダイアログはエージェント自身によってナレーションされる。
Lies-in-the-Loop(LITL)攻撃は、サマリが偽造可能であることを示すため、妥協されたエージェントは異なるアクションの実行中に良質な説明を表示することができる。
本稿では, エージェントに示される行動は, エージェントのナレーションではなく, エージェントのナレーションではなく, 境界における実際の行動から, 信頼できる仲介者によってレンダリングされなければならない。
2つのツイストは古典的なWYSIWYSと区別する:レンダラーは敵であり、境界基底真理はエージェントを信頼せずにデコードされなければならない低レベル事象である。
デコーダが完成していないため、実現可能なターゲットはアナライザ相対的である。
プロトタイプはアナライザ、レンダラー、およびbind-to-executionを実装し、総メディエーションと信頼パスは指定されているが、実装されていない。
GTFOBinsは1330の信頼できるツール乱用による独立したコーパスで、プロトタイプは静かに10.0%(例えば、信頼できるツールを介して)を通過し、tldrでは28,798の正規使用コマンドで87.0%が無視できない。
サイレントパスを束縛する信頼リストは、オーバープロンプティングを駆動するのと同じであり、境界のみの仲介者は、そのフロンティアに沿って移動することができるが、それを逃れることはできない。
貢献は、解決された防御ではなく、そのフロンティアにおける特性、メカニズム、誠実な位置である。
関連論文リスト
- AgentSecBench: Measuring Prompt Injection, Privacy Leakage, and Tool-Use Integrity in LLM Agents [0.2864713389096699]
本稿では,AgentSecBenchを,この問題に対する正式なセキュリティフレームワークの実証的なインスタンス化として紹介する。
3つのゲーム・インストラクション・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)を定めている。
これは、承認された観察と能力に対するプロジェクションとしてのアプリケーションポリシーを表し、プロジェクションの即時アノテーションとプロジェクションの強化を区別し、敵のアドバンテージと、防衛が生成前に関連するモデル可視チャネルを閉鎖するかどうかを計測する。
論文 参考訳(メタデータ) (2026-05-25T18:53:22Z) - Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback [38.251599309409]
我々は,悪質なツールが探索中に合理的に振る舞う,異なる障害モード,認知的中毒について検討する。
ファイナルアクションリスクスコアリングのためのバックボーンに依存しないフレームワークであるVISTA-Guardを提案する。
論文 参考訳(メタデータ) (2026-05-17T13:51:34Z) - Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - Under the Hood of SKILL.md: Semantic Supply-chain Attacks on AI Agent Skill Registry [49.83108591873481]
SKILL.md - エージェントスキルライフサイクルの3つのステージを対象とするアタックのみを調査する。
SKILL.mdは受動的ドキュメントではなく、サードパーティのエージェントが発見し、信頼し、使用する機能を形成する運用テキストであることを示す。
論文 参考訳(メタデータ) (2026-05-12T02:11:54Z) - The Granularity Mismatch in Agent Security: Argument-Level Provenance Solves Enforcement and Isolates the LLM Reasoning Bottleneck [18.14752683836217]
textscPACTは、ツール引数にセマンティックロールを割り当てるランタイムモニタである。
textscPACTはエージェントセキュリティを権限バインディングとして再設定する。
論文 参考訳(メタデータ) (2026-05-11T04:09:11Z) - Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents [9.457255218406333]
コンピュータ利用エージェント(CUA)はグラフィカルユーザインタフェースに直接作用するが、画面に対する認識は信頼できないことが多い。
我々は、エージェントが誤認識された画面状態に基づいてアクションを認可する障害モードである視覚的混乱副産物を形式化する。
この脅威を軽減するため,エージェントの知覚ループ外で動作する最初のガードレールを提案する。
論文 参考訳(メタデータ) (2026-03-16T01:31:32Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。