Fugu-MT 論文翻訳(概要): AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning

論文の概要: AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning

arxiv url: http://arxiv.org/abs/2405.16247v2
Date: Mon, 29 Jul 2024 12:16:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 22:58:37.477241
Title: AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning
Title（参考訳）: 対話型環境学習によるLLMエージェントによる指導マニュアルの自動作成
Authors: Minghao Chen, Yihang Li, Yanting Yang, Shiyu Yu, Binbin Lin, Xiaofei He,
Abstract要約: LLM(Large Language Models)ベースのエージェントは、さまざまなドメインにわたるタスクを自律的に完了させることを約束している。我々は,LLMエージェントが対話を通じて理解を自律的に構築し,新しい環境に適応することを可能にするフレームワークであるAutoManualを紹介した。
参考スコア（独自算出の注目度）: 11.123256612680906
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLM) based agents have shown promise in autonomously completing tasks across various domains, e.g., robotics, games, and web navigation. However, these agents typically require elaborate design and expert prompts to solve tasks in specific domains, which limits their adaptability. We introduce AutoManual, a framework enabling LLM agents to autonomously build their understanding through interaction and adapt to new environments. AutoManual categorizes environmental knowledge into diverse rules and optimizes them in an online fashion by two agents: 1) The Planner codes actionable plans based on current rules for interacting with the environment. 2) The Builder updates the rules through a well-structured rule system that facilitates online rule management and essential detail retention. To mitigate hallucinations in managing rules, we introduce a case-conditioned prompting strategy for the Builder. Finally, the Formulator agent compiles these rules into a comprehensive manual. The self-generated manual can not only improve the adaptability but also guide the planning of smaller LLMs while being human-readable. Given only one simple demonstration, AutoManual significantly improves task success rates, achieving 97.4\% with GPT-4-turbo and 86.2\% with GPT-3.5-turbo on ALFWorld benchmark tasks. The code is available at https://github.com/minghchen/automanual.
Abstract（参考訳）: LLM(Large Language Models)ベースのエージェントは、さまざまなドメイン、例えばロボティクス、ゲーム、Webナビゲーションにおいて、自律的にタスクを完了させることを約束している。しかし、これらのエージェントは通常、特定のドメインのタスクを解決するために精巧な設計と専門家のプロンプトを必要とし、適応性を制限する。我々は,LLMエージェントが対話を通じて理解を自律的に構築し,新しい環境に適応することを可能にするフレームワークであるAutoManualを紹介した。 AutoManualは、環境知識を多様なルールに分類し、2つのエージェントによってオンラインで最適化する。 1) プランナーは、環境と対話するための現在の規則に基づいて実行可能な計画をコーディングする。 2) ビルダーは、オンラインルール管理と本質的な詳細保持を容易にする、よく構造化されたルールシステムを通じてルールを更新する。ルール管理における幻覚を軽減するために,ビルダーのケース条件付きプロンプト戦略を導入する。最後に、フォーミュラレータはこれらのルールを包括的なマニュアルにコンパイルする。自己生成マニュアルは適応性を向上するだけでなく、人間可読性を維持しながら、より小さなLCMの計画も導くことができる。 1つの単純なデモンストレーションで、AutoManualはタスクの成功率を大幅に改善し、GPT-4-turboで97.4\%、ALFWorldベンチマークタスクで86.2\%を達成した。コードはhttps://github.com/minghchen/automanual.comで公開されている。

関連論文リスト

CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3～36ポイントの絶対的な向上が見られた。
論文参考訳（メタデータ） (2025-07-04T02:20:19Z)
Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning [5.638621244710438]
TAPASは特殊なLLMベースのエージェントを使用して、協調的にドメインモデルを生成し、適応する。 ReAct(Reason+Act)スタイルの実行エージェントは、自然言語の計画翻訳と組み合わせて、動的に生成された計画と現実世界のロボット能力のギャップを埋める。
論文参考訳（メタデータ） (2025-06-24T13:02:06Z)
LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics [7.274730603514222]
自律型家庭用オブジェクト管理のためのLLM駆動型エージェントオーケストレーションアーキテクチャを具現化したロボットシステムを提案する。このシステムはメモリ拡張タスク計画を統合し、過去の動作を追跡しながらロボットがハイレベルなユーザーコマンドを実行できるようにする。
論文参考訳（メタデータ） (2025-04-30T15:00:20Z)
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳（メタデータ） (2025-03-21T17:04:01Z)
AutoMisty: A Multi-Agent LLM Framework for Automated Code Generation in the Misty Social Robot [9.893984605439194]
大規模言語モデル(LLM)を利用した初のマルチエージェントコラボレーションフレームワークであるAutoMistyを紹介する。 AutoMistyには4つの特別なエージェントモジュールが組み込まれており、タスクの分解、割り当て、問題解決、結果合成を管理している。 AutoMistyの有効性を評価するために,4段階の複雑さにまたがるベンチマークタスクを設計し,実際のMistyロボット環境で実験を行った。
論文参考訳（メタデータ） (2025-03-09T22:07:46Z)
AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents [4.57755315319748]
大規模言語モデル (LLM) エージェントはタスクの自動化とインテリジェントな意思決定において顕著な能力を示した。これらのフレームワークは、主に開発者に対して広範な技術的専門知識を提供する。世界の人口の0.03%のみが必要なプログラミングスキルを持っている。
論文参考訳（メタデータ） (2025-02-09T16:53:56Z)
AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文参考訳（メタデータ） (2024-10-28T17:05:10Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
Control Industrial Automation System with Large Language Models [2.2369578015657954]
本稿では,大規模言語モデルと産業自動化システムを統合するためのフレームワークを提案する。フレームワークの中核には、産業タスク用に設計されたエージェントシステム、構造化プロンプト方法、イベント駆動情報モデリング機構がある。コントリビューションには、フォーマルなシステム設計、概念実証実装、タスク固有のデータセットを生成する方法が含まれる。
論文参考訳（メタデータ） (2024-09-26T16:19:37Z)
RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文参考訳（メタデータ） (2024-09-10T06:07:32Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文参考訳（メタデータ） (2024-01-03T08:33:09Z)
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With Large Language Models [11.895111124804503]
AutoPlanは、LCMベースのエージェントをガイドして、対話的な意思決定タスクを実現するアプローチである。実験の結果,AutoPlanはベースラインと同等の成功率を達成した。
論文参考訳（メタデータ） (2023-05-24T11:52:23Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。