Fugu-MT 論文翻訳(概要): Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs

論文の概要: Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs

arxiv url: http://arxiv.org/abs/2404.17833v1
Date: Sat, 27 Apr 2024 08:56:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 19:01:27.484175
Title: Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs
Title（参考訳）: 合成ユーザ入力によるLLMエージェントの不正計画の検証と理解
Authors: Zhenlan Ji, Daoyuan Wu, Pingchuan Ma, Zongjie Li, Shuai Wang,
Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクを解くのに有効であることを示した。 LLMは、特にタスクが複雑で長期計画を必要とする場合、誤った計画を立てる傾向がある。提案するPDoctorは,LLMエージェントをテストし,それらの誤った計画を理解するための新しいアプローチである。
参考スコア（独自算出の注目度）: 12.412286518773028
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agents based on large language models (LLMs) have demonstrated effectiveness in solving a wide range of tasks by integrating LLMs with key modules such as planning, memory, and tool usage. Increasingly, customers are adopting LLM agents across a variety of commercial applications critical to reliability, including support for mental well-being, chemical synthesis, and software development. Nevertheless, our observations and daily use of LLM agents indicate that they are prone to making erroneous plans, especially when the tasks are complex and require long-term planning. In this paper, we propose PDoctor, a novel and automated approach to testing LLM agents and understanding their erroneous planning. As the first work in this direction, we formulate the detection of erroneous planning as a constraint satisfiability problem: an LLM agent's plan is considered erroneous if its execution violates the constraints derived from the user inputs. To this end, PDoctor first defines a domain-specific language (DSL) for user queries and synthesizes varying inputs with the assistance of the Z3 constraint solver. These synthesized inputs are natural language paragraphs that specify the requirements for completing a series of tasks. Then, PDoctor derives constraints from these requirements to form a testing oracle. We evaluate PDoctor with three mainstream agent frameworks and two powerful LLMs (GPT-3.5 and GPT-4). The results show that PDoctor can effectively detect diverse errors in agent planning and provide insights and error characteristics that are valuable to both agent developers and users. We conclude by discussing potential alternative designs and directions to extend PDoctor.
Abstract（参考訳）: 大規模言語モデル(LLM)に基づくエージェントは、LLMを計画、メモリ、ツール使用といった主要なモジュールと統合することで、幅広いタスクを解く効果を実証している。顧客は、メンタルウェルビーイング、ケミカルシンセサイザー、ソフトウェア開発のサポートなど、信頼性に重要なさまざまな商用アプリケーションにLLMエージェントを採用しています。しかしながら,LLMエージェントの観察と日常使用は,特にタスクが複雑で長期計画を必要とする場合には,誤った計画を立てる傾向があることを示唆している。本稿では,LLMエージェントの新規かつ自動的なテスト手法であるPDoctorを提案する。この方向の最初の研究として、LLMエージェントの計画がユーザ入力からの制約に違反している場合、誤った計画の検出を制約適合性問題として定式化する。この目的のために、PDoctorはまず、ユーザクエリ用のドメイン固有言語(DSL)を定義し、Z3制約ソルバの助けを借りて様々な入力を合成する。これらの合成された入力は、一連のタスクを完了するための要件を指定する自然言語の段落である。次に、PDoctorはこれらの要件から制約を導出し、テストオラクルを形成する。我々はPDoctorを3つの主要なエージェントフレームワークと2つの強力なLCM(GPT-3.5とGPT-4)で評価した。その結果、PDoctorはエージェント計画における多様なエラーを効果的に検出し、エージェント開発者とユーザの両方にとって価値のある洞察とエラー特性を提供することができた。我々は、PDoctorを拡張するための潜在的な代替設計と方向性について議論することで結論付ける。

関連論文リスト

Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
Scaling Up Natural Language Understanding for Multi-Robots Through the Lens of Hierarchy [8.180994118420053]
長期計画には不確実性蓄積、計算複雑性、遅延報酬、不完全情報といった課題が伴う。本研究では,タスク階層を人間の指示から活用し,マルチロボット計画を容易にする手法を提案する。
論文参考訳（メタデータ） (2024-08-15T14:46:13Z)
Prompt Recursive Search: A Living Framework with Adaptive Growth in LLM Auto-Prompting [22.025533583703126]
大規模言語モデル(LLM)のためのPRS(Prompt Recursive Search)フレームワークを提案する。 PRSフレームワークは、問題複雑性と調整可能な構造の評価を取り入れ、エラーの可能性の低減を確実にする。 The Chain of Thought(CoT)法と比較して, PRS法は, Llama3-7Bモデルを用いてBBHデータセットの精度を8%向上し, 22%の改善を実現した。
論文参考訳（メタデータ） (2024-08-02T17:59:42Z)
Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文参考訳（メタデータ） (2024-06-18T14:07:28Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文参考訳（メタデータ） (2024-03-05T16:39:12Z)
AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文参考訳（メタデータ） (2023-05-26T05:52:27Z)
Understanding the Capabilities of Large Language Models for Automated Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文参考訳（メタデータ） (2023-05-25T15:21:09Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)
Plansformer: Generating Symbolic Plans using Transformers [24.375997526106246]
大規模言語モデル(LLM)は、自然言語処理(NLP)分野を著しく進歩させ、活発な研究対象となっている。プランフォーマーは計画上の問題に微調整され、知識工学の努力を減らし、正確さと長さの点で良好な行動で計画を生成することができる。 Plansformerの1つの構成では、97%の有効なプランが達成されます。
論文参考訳（メタデータ） (2022-12-16T19:06:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。