論文の概要: AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning
- arxiv url: http://arxiv.org/abs/2405.16247v2
- Date: Mon, 29 Jul 2024 12:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 22:58:37.477241
- Title: AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning
- Title(参考訳): 対話型環境学習によるLLMエージェントによる指導マニュアルの自動作成
- Authors: Minghao Chen, Yihang Li, Yanting Yang, Shiyu Yu, Binbin Lin, Xiaofei He,
- Abstract要約: LLM(Large Language Models)ベースのエージェントは、さまざまなドメインにわたるタスクを自律的に完了させることを約束している。
我々は,LLMエージェントが対話を通じて理解を自律的に構築し,新しい環境に適応することを可能にするフレームワークであるAutoManualを紹介した。
- 参考スコア(独自算出の注目度): 11.123256612680906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) based agents have shown promise in autonomously completing tasks across various domains, e.g., robotics, games, and web navigation. However, these agents typically require elaborate design and expert prompts to solve tasks in specific domains, which limits their adaptability. We introduce AutoManual, a framework enabling LLM agents to autonomously build their understanding through interaction and adapt to new environments. AutoManual categorizes environmental knowledge into diverse rules and optimizes them in an online fashion by two agents: 1) The Planner codes actionable plans based on current rules for interacting with the environment. 2) The Builder updates the rules through a well-structured rule system that facilitates online rule management and essential detail retention. To mitigate hallucinations in managing rules, we introduce a case-conditioned prompting strategy for the Builder. Finally, the Formulator agent compiles these rules into a comprehensive manual. The self-generated manual can not only improve the adaptability but also guide the planning of smaller LLMs while being human-readable. Given only one simple demonstration, AutoManual significantly improves task success rates, achieving 97.4\% with GPT-4-turbo and 86.2\% with GPT-3.5-turbo on ALFWorld benchmark tasks. The code is available at https://github.com/minghchen/automanual.
- Abstract(参考訳): LLM(Large Language Models)ベースのエージェントは、さまざまなドメイン、例えばロボティクス、ゲーム、Webナビゲーションにおいて、自律的にタスクを完了させることを約束している。
しかし、これらのエージェントは通常、特定のドメインのタスクを解決するために精巧な設計と専門家のプロンプトを必要とし、適応性を制限する。
我々は,LLMエージェントが対話を通じて理解を自律的に構築し,新しい環境に適応することを可能にするフレームワークであるAutoManualを紹介した。
AutoManualは、環境知識を多様なルールに分類し、2つのエージェントによってオンラインで最適化する。
1) プランナーは、環境と対話するための現在の規則に基づいて実行可能な計画をコーディングする。
2) ビルダーは、オンラインルール管理と本質的な詳細保持を容易にする、よく構造化されたルールシステムを通じてルールを更新する。
ルール管理における幻覚を軽減するために,ビルダーのケース条件付きプロンプト戦略を導入する。
最後に、フォーミュラレータはこれらのルールを包括的なマニュアルにコンパイルする。
自己生成マニュアルは適応性を向上するだけでなく、人間可読性を維持しながら、より小さなLCMの計画も導くことができる。
1つの単純なデモンストレーションで、AutoManualはタスクの成功率を大幅に改善し、GPT-4-turboで97.4\%、ALFWorldベンチマークタスクで86.2\%を達成した。
コードはhttps://github.com/minghchen/automanual.comで公開されている。
関連論文リスト
- AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Control Industrial Automation System with Large Language Models [2.2369578015657954]
本稿では,大規模言語モデルと産業自動化システムを統合するためのフレームワークを提案する。
フレームワークの中核には、産業タスク用に設計されたエージェントシステム、構造化プロンプト方法、イベント駆動情報モデリング機構がある。
コントリビューションには、フォーマルなシステム設計、概念実証実装、タスク固有のデータセットを生成する方法が含まれる。
論文 参考訳(メタデータ) (2024-09-26T16:19:37Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。
本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文 参考訳(メタデータ) (2024-01-03T08:33:09Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With
Large Language Models [11.895111124804503]
AutoPlanは、LCMベースのエージェントをガイドして、対話的な意思決定タスクを実現するアプローチである。
実験の結果,AutoPlanはベースラインと同等の成功率を達成した。
論文 参考訳(メタデータ) (2023-05-24T11:52:23Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。