Fugu-MT 論文翻訳(概要): Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents

論文の概要: Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents

arxiv url: http://arxiv.org/abs/2412.18371v2
Date: Wed, 25 Dec 2024 09:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 12:14:32.87392
Title: Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents
Title（参考訳）: 大規模言語モデルに基づく自律エージェントの欠陥の定義と検出
Authors: Kaiwen Ning, Jiachi Chen, Jingwen Zhang, Wei Li, Zexu Wang, Yuming Feng, Weizhe Zhang, Zibin Zheng,
Abstract要約: 本研究は,LLMエージェントの欠陥の同定と検出に焦点を当てた最初の研究である。 StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。
参考スコア（独自算出の注目度）: 31.126001253902416
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI agents are systems capable of perceiving their environment, autonomously planning and executing tasks. Recent advancements in LLM have introduced a transformative paradigm for AI agents, enabling them to interact with external resources and tools through prompts. In such agents, the workflow integrates developer-written code, which manages framework construction and logic control, with LLM-generated natural language that enhances dynamic decision-making and interaction. However, discrepancies between developer-implemented logic and the dynamically generated content of LLMs in terms of behavior and expected outcomes can lead to defects, such as tool invocation failures and task execution errors. These issues introduce specific risks, leading to various defects in LLM-based AI Agents, such as service interruptions. Despite the importance of these issues, there is a lack of systematic work that focuses on analyzing LLM-based AI Agents to uncover defects in their code. In this paper, we present the first study focused on identifying and detecting defects in LLM Agents. We collected and analyzed 6,854 relevant posts from StackOverflow to define 8 types of agent defects. For each type, we provided detailed descriptions with an example. Then, we designed a static analysis tool, named Agentable, to detect the defects. Agentable leverages Code Property Graphs and LLMs to analyze Agent workflows by efficiently identifying specific code patterns and analyzing natural language descriptions. To evaluate Agentable, we constructed two datasets: AgentSet, consists of 84 real-world Agents, and AgentTest, which contains 78 Agents specifically designed to include various types of defects. Our results show that Agentable achieved an overall accuracy of 88.79% and a recall rate of 91.03%. Furthermore, our analysis reveals the 889 defects of the AgentSet, highlighting the prevalence of these defects.
Abstract（参考訳）: AIエージェントは、彼らの環境を理解し、自律的に計画し、タスクを実行することができるシステムである。 LLMの最近の進歩は、AIエージェントのための変革的パラダイムを導入し、プロンプトを通じて外部リソースやツールとの対話を可能にしている。このようなエージェントでは、フレームワークの構築とロジック制御を管理する開発者記述のコードと、動的意思決定とインタラクションを強化するLLM生成自然言語を統合する。しかし、開発者の実装したロジックとLCMの動的に生成されたコンテンツの振る舞いと期待される結果との相違は、ツールの実行障害やタスク実行エラーなどの欠陥を引き起こす可能性がある。これらの問題は特定のリスクを導入し、サービス中断など、LLMベースのAIエージェントにさまざまな欠陥をもたらす。これらの問題の重要性にもかかわらず、LLMベースのAIエージェントを分析してコードの欠陥を明らかにするという、体系的な作業の欠如がある。本稿では,LLMエージェントの欠陥の同定と検出を目的とした最初の研究について述べる。 StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。それぞれのタイプについて、詳細な説明を例に挙げた。そこで我々は,Agentableという静的解析ツールを設計し,欠陥を検出する。 Agentableは、コードプロパティグラフとLLMを活用して、特定のコードパターンを効率的に識別し、自然言語記述を分析することにより、Agensワークフローを分析する。 AgentSetは84の現実世界のエージェントで構成されており、AgentTestは78のエージェントを含み、さまざまな種類の欠陥を含むように設計されています。以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。さらに分析の結果,AgentSetの889の欠陥が明らかとなり,これらの欠陥の頻度が明らかになった。

関連論文リスト

Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Towards Adaptive Software Agents for Debugging [0.40964539027092917]
本稿では,エージェントの数とその役割を動的に決定する適応型エージェント設計を提案する。最初の評価では、適応設計では、生成されるエージェントの数はバグのあるコードの複雑さに依存することが示されている。治療効果は, ワンショットプロンプトよりも平均11%改善した。
論文参考訳（メタデータ） (2025-04-25T12:48:08Z)
AEGIS: An Agent-based Framework for General Bug Reproduction from Issue Descriptions [10.686849324750556]
gEneral buG reproductIon Scripts 生成フレームワークは AEGIS という名称で、タスクのための最初のエージェントベースのフレームワークである。 AEGISは、Agentlessの相対的な解決率を12.5%向上させることができる。
論文参考訳（メタデータ） (2024-11-27T03:16:47Z)
An Empirical Study on LLM-based Agents for Automated Bug Fixing [2.433168823911037]
大規模な言語モデル (LLM) と LLM ベースのエージェントが自動的にバグを修正するために適用されている。自動バグ修正のためのSWE-bench Liteベンチマークにおいて,プロプライエタリでオープンソースな7つのシステムについて検討した。
論文参考訳（メタデータ） (2024-11-15T14:19:15Z)
REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-10-10T18:06:29Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価関数を手動で作成する。ブラックボックスフロンティア LLM を使用する最新のエージェントのレンジを切断できることが分かりました。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection [9.422811525274675]
大規模言語モデル(LLM)は、コード生成やその他のソフトウェアエンジニアリングタスクに大きな可能性を実証しています。脆弱性検出は、ソフトウェアシステムのセキュリティ、完全性、信頼性を維持する上で非常に重要である。最近の研究は、ジェネリックプロンプト技術を用いた脆弱性検出にLLMを適用しているが、このタスクの能力とそれらが犯すエラーの種類は未だ不明である。
論文参考訳（メタデータ） (2024-03-25T21:47:36Z)
AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文参考訳（メタデータ） (2024-03-25T01:58:19Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。