論文の概要: Auditing Agent Harness Safety
- arxiv url: http://arxiv.org/abs/2605.14271v2
- Date: Sat, 16 May 2026 00:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.992155
- Title: Auditing Agent Harness Safety
- Title(参考訳): 監査エージェントのハーネス安全性
- Authors: Chengzhi Liu, Yichen Guo, Yepeng Liu, Yuzhe Yang, Qianqi Yan, Xuandong Zhao, Wenyue Hua, Sheng Liu, Sharon Li, Yuheng Bu, Xin Eric Wang,
- Abstract要約: LLMエージェントは、ツールをディスパッチし、リソースを割り当て、特別なコンポーネント間でメッセージをルーティングする実行ハーネスの中でますます動作します。
ほとんどの安全ベンチマークは最終出力または終端状態のみをスコアするが、多くの違反は終端ではなく、軌道の途中で発生する。
HarnessAuditは、境界コンプライアンス、実行の忠実さ、システムの安定性など、完全な実行軌跡を監査するフレームワークである。
- 参考スコア(独自算出の注目度): 81.22315979618612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.
- Abstract(参考訳): LLMエージェントは、ツールをディスパッチし、リソースを割り当て、特別なコンポーネント間でメッセージをルーティングする実行ハーネスの中でますます動作します。
しかし、ハーネスは、不正なリソースにアクセスしたり、間違ったエージェントにコンテキストをリークするトラジェクトリ上で正しい、良心的な回答を返すことができる。
アウトプットレベルの評価はこれらの失敗を見ることはできないが、ほとんどの安全ベンチマークは最終出力または終端状態のみをスコアする。
中心的な問題は、ハーネスが実行を通じてユーザ意図、パーミッション境界、情報フローの制約を尊重するかどうかである。
このギャップに対処するため、我々は、境界コンプライアンス、実行の忠実さ、システムの安定性などにわたる完全な実行軌跡を監査するフレームワークであるHarnessAuditを提案し、これらのリスクが最も顕著なマルチエージェントハーネスに焦点をあてる。
さらに、HarnessAudit-Benchを紹介します。これは8つの現実世界のドメインにわたる210のタスクのベンチマークで、シングルエージェントとマルチエージェントの両方でインスタンス化され、組込み安全性の制約があります。
フロンティアモデルと3つのマルチエージェントフレームワークにまたがる10のハーネス構成を評価すると、次のようなことが分かる。
一 作業完了は、安全執行と不一致であり、違反は、軌跡の長さで蓄積する。
安全リスクは、領域、タスクタイプ、エージェントの役割によって異なります。
三 殆どの違反は、資源アクセス及びエージェント間情報伝達に集中する。
(4)マルチエージェントコラボレーションは、安全リスク面を拡大し、ハーネス設計は、安全デプロイメントの上限を高く設定する。
関連論文リスト
- On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment [54.30690671490447]
既存の安全アライメント信号は、主に応答レベルまたは政治外である。
FATEは、検証済みの失敗を専門家のデモンストレーションなしで修復管理に変換する。
FATEは攻撃成功率を33.5%、有害なコンプライアンスを82.6%削減し、外的軌道安全診断を6.5%改善する。
論文 参考訳(メタデータ) (2026-05-12T09:56:28Z) - Safe Bilevel Delegation (SBD): A Formal Framework for Runtime Delegation Safety in Multi-Agent Systems [4.161562398794914]
本稿では,階層型マルチエージェントシステムにおけるランタイムデリゲート安全のための公式なフレームワークを提案する。
医療用AI(MIMIC-III)、金融リスク管理(SとP500)、教育エージェント監督(ASSISTments)の3つの高レベル領域で安全な二段階デリゲーション(SBD)をインスタンス化する。
論文 参考訳(メタデータ) (2026-04-30T03:15:05Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - Seven Security Challenges That Must be Solved in Cross-domain Multi-agent LLM Systems [16.838103835766066]
大規模言語モデル(LLM)は、組織の境界を越えて協調する自律エージェントへと急速に進化している。
本稿では、クロスドメインマルチエージェントLLMシステムのセキュリティアジェンダをマッピングする。
論文 参考訳(メタデータ) (2025-05-28T18:19:03Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。