論文の概要: Uncovering Systemic and Environment Errors in Autonomous Systems Using Differential Testing
- arxiv url: http://arxiv.org/abs/2507.03870v1
- Date: Sat, 05 Jul 2025 02:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.91424
- Title: Uncovering Systemic and Environment Errors in Autonomous Systems Using Differential Testing
- Title(参考訳): 微分テストを用いた自律システムにおけるシステムエラーと環境エラーの発見
- Authors: Rahil P Mehta, Yashwanthi Anand, Manish Motwani, Sandhya Saisubramanian,
- Abstract要約: 本稿では,非好ましくないエージェントの挙動に差分試験を適用する新しいブラックボックステスト手法であるAIProbeを紹介する。
AIProbeは、エージェントのモデルやポリシーのエラーによるものなのか、あるいは解決不可能なタスク条件によるものなのかを識別する。
評価の結果,AIProbeは,総誤差と一意誤差の両方を検出する上で,最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 9.625308787676286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an autonomous agent behaves undesirably, including failure to complete a task, it can be difficult to determine whether the behavior is due to a systemic agent error, such as flaws in the model or policy, or an environment error, where a task is inherently infeasible under a given environment configuration, even for an ideal agent. As agents and their environments grow more complex, identifying the error source becomes increasingly difficult but critical for reliable deployment. We introduce AIProbe, a novel black-box testing technique that applies differential testing to attribute undesirable agent behaviors either to agent deficiencies, such as modeling or training flaws, or due to environmental infeasibility. AIProbe first generates diverse environmental configurations and tasks for testing the agent, by modifying configurable parameters using Latin Hypercube sampling. It then solves each generated task using a search-based planner, independent of the agent. By comparing the agent's performance to the planner's solution, AIProbe identifies whether failures are due to errors in the agent's model or policy, or due to unsolvable task conditions. Our evaluation across multiple domains shows that AIProbe significantly outperforms state-of-the-art techniques in detecting both total and unique errors, thereby contributing to a reliable deployment of autonomous agents.
- Abstract(参考訳): タスク完了の失敗を含む自律エージェントが好ましくない動作をする場合には、モデルやポリシーの欠陥などのシステムエージェントエラーによるものなのか、あるいは、理想的なエージェントであっても、与えられた環境構成の下でタスクが本質的に不可能な環境エラーによるものなのかを判断することは困難である。
エージェントとその環境が複雑化するにつれて、エラーソースの特定はますます難しくなるが、信頼性の高いデプロイメントには重要になる。
AIProbeは,非好ましくないエージェントの動作を,モデルやトレーニング欠陥などのエージェントの欠陥,あるいは環境不実現性によって評価する,新しいブラックボックステスト手法である。
AIProbeはまず、ラテンハイパーキューブサンプリングを用いて設定可能なパラメータを変更することで、エージェントをテストするための多様な環境構成とタスクを生成する。
次に、エージェントに依存しない検索ベースのプランナーを使用して、生成された各タスクを解決する。
エージェントのパフォーマンスをプランナーのソリューションと比較することにより、AIProbeはエージェントのモデルやポリシーのエラーによるものなのか、あるいは解決不可能なタスク条件によるものなのかを識別する。
複数の領域にわたる評価の結果、AIProbeは総誤差と一意誤差の両方を検知する最先端技術よりも優れており、自律エージェントの信頼性の高い展開に寄与している。
関連論文リスト
- Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents [31.126001253902416]
本研究は,LLMエージェントの欠陥の同定と検出に焦点を当てた最初の研究である。
StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。
以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。
論文 参考訳(メタデータ) (2024-12-24T11:54:14Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,GUI環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含んでいる、という一般的なシナリオが提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。