論文の概要: WorldCoder, a Model-Based LLM Agent: Building World Models by Writing
Code and Interacting with the Environment
- arxiv url: http://arxiv.org/abs/2402.12275v1
- Date: Mon, 19 Feb 2024 16:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:35:37.574828
- Title: WorldCoder, a Model-Based LLM Agent: Building World Models by Writing
Code and Interacting with the Environment
- Title(参考訳): モデルベースLLMエージェントWorldCoder:コードを書くことによって世界モデルを構築し、環境と相互作用する
- Authors: Hao Tang, Darren Key, Kevin Ellis
- Abstract要約: 我々は,環境とのインタラクションに基づいて,世界の知識を表現したPythonプログラムを構築するモデルベースエージェントを提案する。
我々はグリッドワールドにおけるエージェントの研究を行い、我々のアプローチは深いRLに比べてサンプリング効率が良く、ReActスタイルのエージェントよりも計算効率が良いことを発見した。
- 参考スコア(独自算出の注目度): 13.27773827926797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We give a model-based agent that builds a Python program representing its
knowledge of the world based on its interactions with the environment. The
world model tries to explain its interactions, while also being optimistic
about what reward it can achieve. We do this by extending work on program
synthesis via LLMs. We study our agent on gridworlds, finding our approach is
more sample-efficient compared to deep RL, and more compute-efficient compared
to ReAct-style agents.
- Abstract(参考訳): 我々は,環境とのインタラクションに基づいて,世界の知識を表現するPythonプログラムを構築するモデルベースエージェントを提案する。
世界モデルは、その相互作用を説明しつつ、どんな報酬が得られるのかを楽観的に説明しようとします。
LLMを通してプログラム合成の作業を拡張することでこれを実現します。
我々はグリッドワールドにおけるエージェントの研究を行い、我々のアプローチは深いRLに比べてサンプリング効率が良く、ReActスタイルのエージェントよりも計算効率が良いことを発見した。
関連論文リスト
- Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。
我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - CLIMB: Language-Guided Continual Learning for Task Planning with Iterative Model Building [30.274897468701592]
ロボットタスク計画のための連続学習フレームワークCLIMBを提案する。
CLIMBは、自然言語の記述からモデルを構築し、タスクを解決しながら、予期せぬ述語を学び、その情報を将来の問題に保存する。
またBlocksWorld++ドメインも開発しています。これは、簡単に使える実環境と、継続的な学習を評価するのに困難なタスクのカリキュラムを兼ね備えたシミュレーション環境です。
論文 参考訳(メタデータ) (2024-10-17T16:53:43Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search [5.913758275518443]
我々は,大規模言語モデル(LLM)が生成する世界モデルであるコードワールドモデルを,モデルベース強化学習(RL)のためのPythonコード形式として検討する。
LLMの代わりにコードを呼び出すことは、より正確で、信頼性があり、解釈可能で、非常に効率的である可能性がある。
その結果, モデルベースRLエージェントは, サンプル効率と推論速度を大幅に向上させることができた。
論文 参考訳(メタデータ) (2024-05-24T09:31:26Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Thinker: Learning to Plan and Act [18.425843346728648]
思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。
本研究では,ソコバンとアタリ2600ベンチマークを用いて,実験結果を用いてアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2023-07-27T16:40:14Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Relational-Grid-World: A Novel Relational Reasoning Environment and An
Agent Model for Relational Information Extraction [0.0]
強化学習(RL)エージェントは特定の問題のために特別に設計され、一般的には解釈不能な作業プロセスを持つ。
統計的手法に基づくRLアルゴリズムは、論理プログラミングのようなシンボリック人工知能(AI)ツールを用いて、一般化可能性と解釈可能性の観点から改善することができる。
環境オブジェクトの明示的なリレーショナル表現をサポートするモデルフリーなRLアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-12T11:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。