論文の概要: Auditable Agents
- arxiv url: http://arxiv.org/abs/2604.05485v1
- Date: Tue, 07 Apr 2026 06:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.663069
- Title: Auditable Agents
- Title(参考訳): 聴取可能なエージェント
- Authors: Yi Nian, Aojie Yuan, Haiyue Zhang, Jiate Li, Yue Zhao,
- Abstract要約: LLMエージェントはツールを呼び、データベースをクエリし、タスクをデリゲートし、外部の副作用を引き起こす。
エージェントシステムが世界で活動できるようになると、もはや有害なアクションが防げるかどうかという問題ではない。
我々は、説明責任(コンプライアンスを判断し、責任を割り当てる能力)、監査可能性(説明責任を可能にするシステム特性)、監査(信頼できる証拠から振る舞いを再構築するプロセス)を区別する。
- 参考スコア(独自算出の注目度): 10.007755929469814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents call tools, query databases, delegate tasks, and trigger external side effects. Once an agent system can act in the world, the question is no longer only whether harmful actions can be prevented--it is whether those actions remain answerable after deployment. We distinguish accountability (the ability to determine compliance and assign responsibility), auditability (the system property that makes accountability possible), and auditing (the process of reconstructing behavior from trustworthy evidence). Our claim is direct: no agent system can be accountable without auditability. To make this operational, we define five dimensions of agent auditability, i.e., action recoverability, lifecycle coverage, policy checkability, responsibility attribution, and evidence integrity, and identify three mechanism classes (detect, enforce, recover) whose temporal information-and-intervention constraints explain why, in practice, no single approach suffices. We support the position with layered evidence rather than a single benchmark: lower-bound ecosystem measurements suggest that even basic security prerequisites for auditability are widely unmet (617 security findings across six prominent open-source projects); runtime feasibility results show that pre-execution mediation with tamper-evident records adds only 8.3 ms median overhead; and controlled recovery experiments show that responsibility-relevant information can be partially recovered even when conventional logs are missing. We propose an Auditability Card for agent systems and identify six open research problems organized by mechanism class.
- Abstract(参考訳): LLMエージェントはツールを呼び、データベースをクエリし、タスクをデリゲートし、外部の副作用を引き起こす。
エージェントシステムが世界で活動できるようになると、もはや有害なアクションが防げるかどうかという問題ではない。
我々は、説明責任(コンプライアンスを判断し、責任を割り当てる能力)、監査可能性(説明責任を可能にするシステム特性)、監査(信頼できる証拠から振る舞いを再構築するプロセス)を区別する。
我々の主張は直接的であり、監査不能なエージェントシステムは説明できない。
これを運用するために,エージェント監査可能性,すなわち行動回復可能性,ライフサイクルカバレッジ,ポリシチェック可能性,責任帰属性,エビデンス完全性の5つの側面を定義し,時間的情報・介入の制約が理由を説明する3つのメカニズムクラス(検出,強制,回復)を特定する。
我々は,1つのベンチマークではなく,階層化されたエビデンスによる位置を支持する。低バウンドのエコシステム測定は,監査性に関する基本的なセキュリティ要件さえも十分に満たされていないことを示唆している(6つの著名なオープンソースプロジェクトで617のセキュリティ発見)。
本稿では,エージェントシステムのための可聴性カードを提案し,機構クラスによって構成された6つのオープンな研究課題を同定する。
関連論文リスト
- ESAA-Security: An Event-Sourced, Verifiable Architecture for Agent-Assisted Security Audits of AI-Generated Code [0.0]
本稿では,ソフトウェアリポジトリのエージェント支援セキュリティ監査のためのドメイン固有フレームワークであるESAA-Securityを提案する。
このフレームワークは構造化されたチェック結果、脆弱性の在庫、深刻度分類、リスク、修正ガイダンス、エグゼクティブサマリー、最終的なマークダウン/JSON監査レポートを生成する。
論文 参考訳(メタデータ) (2026-03-06T15:15:26Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文 参考訳(メタデータ) (2025-12-19T06:12:43Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - ORCHID: Orchestrated Retrieval-Augmented Classification with Human-in-the-Loop Intelligent Decision-Making for High-Risk Property [6.643427585499247]
ORCHIDは、HRP分類のためのモジュール型エージェントシステムである。
検索強化世代(RAG)を人間の監視と組み合わせて、監査可能なポリシベースのアウトプットを生成する。
デモでは、単一項目の提出、接地された引用、中小企業のフィードバックキャプチャ、エクスポート可能な監査アーティファクトなどが紹介されている。
論文 参考訳(メタデータ) (2025-11-07T03:48:05Z) - AgentGuard: Runtime Verification of AI Agents [1.14219428942199]
AgentGuardは、エージェントAIシステムの実行時検証のためのフレームワークである。
動的確率保証(Dynamic Probabilistic Assurance)と呼ばれる新しいパラダイムを通じて、継続的な量的保証を提供する。
論文 参考訳(メタデータ) (2025-09-28T13:08:50Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。