論文の概要: Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents
- arxiv url: http://arxiv.org/abs/2605.19149v1
- Date: Mon, 18 May 2026 22:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.00913
- Title: Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents
- Title(参考訳): エージェントのメルトダウン:地獄への道は役立たずのエージェントで埋められている
- Authors: Rishi Jha, Harold Triedman, Arkaprabha Bhattacharya, Vitaly Shmatikov,
- Abstract要約: 我々は、強調融解と呼ばれる新しいタイプのエージェント障害を導入し、特徴付けし、測定する。
融解は既存の信頼性ベンチマークや安全性ベンチマークでは捉えられないため、融解挙動の分類法を開発する。
次に、シミュレーションされたローカルおよびリモートエラーをロールアウト環境に注入するためのエージェント非依存のインフラを実装した。
- 参考スコア(独自算出の注目度): 7.806845513717345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents operating with computer and Web use inevitably encounter errors: inaccessible webpages, missing files, local and remote misconfigurations, etc. These errors do not thwart agents based on state-of-the-art models. They helpfully continue to look for ways to complete their tasks. We introduce, characterize, and measure a new type of agent failure we call \emph{accidental meltdown}: unsafe or harmful behavior in response to a benign environmental error, in the absence of any adversarial inputs. Because meltdowns are not captured by the existing reliability or safety benchmarks, we develop a taxonomy of meltdown behaviors. We then implement an agent-agnostic infrastructure for injecting simulated local and remote errors into the rollout environment and use it to systematically evaluate agent systems powered by GPT, Grok, and Gemini. Our evaluation demonstrates that meltdowns (e.g., conducting unauthorized reconnaissance or subverting access control) of varying severity and success occur in 64.7\% of agent rollouts that encounter simulated errors, spanning all combinations of agent system, backing model, and error type. In over half of these meltdowns, unsafe behaviors are not reported to the user. Comparing behaviors of the same agents with and without errors, we find that exploration in response to errors is correlated with unsafe and harmful behavior.
- Abstract(参考訳): コンピュータとWebで動作するエージェントは、アクセス不能なWebページ、ファイルの欠落、ローカルとリモートの設定ミスなど、必然的にエラーに遭遇する。
これらのエラーは、最先端のモデルに基づいてエージェントを妨害しない。
彼らはタスクを完了させる方法を探し続けるのに役立ちます。
我々は,敵の入力がない場合に,環境エラーに応答して安全でない,有害な動作を行う,いわゆる「emph{accidental meltdown}」と呼ばれる新しいタイプのエージェント障害を導入し,特徴付けし,測定する。
融解は既存の信頼性ベンチマークや安全性ベンチマークでは捉えられないため、融解挙動の分類法を開発する。
そこで本研究では,GPT,Grok,Geminiをベースとしたエージェントシステムのシステム評価に,ローカルおよびリモートのシミュレーションエラーをロールアウト環境に注入するためのエージェント非依存のインフラストラクチャを実装した。
本評価は, エージェントシステム, バックモデル, エラータイプの組み合わせにまたがる, シミュレーションエラーに遭遇するエージェントロールアウトの64.7%に, 種々の重症度および成功率のメルトダウン(例えば, 不正な偵察やアクセス制御の反転)が発生することを示す。
これらのメルトダウンの半分以上では、安全でない動作はユーザに報告されない。
同一エージェントの動作とエラーの有無を比較すると,エラーに対する探索は危険で有害な行動と相関していることがわかった。
関連論文リスト
- VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents [31.649268608215817]
コンピュータ利用エージェントの有害行動を評価するベンチマークである textbfAgentHazard を提案する。
我々は、Qwen3、Kim、GLM、DeepSeekファミリーのほとんどをオープンまたはオープンにデプロイ可能なモデルを使用して、Claude Code、OpenClaw、IFlowを評価した。
論文 参考訳(メタデータ) (2026-04-03T10:29:31Z) - Willful Disobedience: Automatically Detecting Failures in Agentic Traces [2.2365938060262356]
AgentPexはエージェントトレースを体系的に評価するAIツールである。
エージェントプロンプトとシステム命令から振る舞いルールを抽出し、これらの仕様を使用してコンプライアンスのトレースを自動的に評価する。
我々は、通信、小売、航空会社の顧客サービスにおいて、AgentPexを2ベンチから424のトレースで評価した。
論文 参考訳(メタデータ) (2026-03-25T00:33:39Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Uncovering Systemic and Environment Errors in Autonomous Systems Using Differential Testing [9.625308787676286]
本稿では,非好ましくないエージェントの挙動に差分試験を適用する新しいブラックボックステスト手法であるAIProbeを紹介する。
AIProbeは、エージェントのモデルやポリシーのエラーによるものなのか、あるいは解決不可能なタスク条件によるものなのかを識別する。
評価の結果,AIProbeは,総誤差と一意誤差の両方を検出する上で,最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2025-07-05T02:50:41Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。