論文の概要: WorldCoder, a Model-Based LLM Agent: Building World Models by Writing
Code and Interacting with the Environment
- arxiv url: http://arxiv.org/abs/2402.12275v1
- Date: Mon, 19 Feb 2024 16:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:35:37.574828
- Title: WorldCoder, a Model-Based LLM Agent: Building World Models by Writing
Code and Interacting with the Environment
- Title(参考訳): モデルベースLLMエージェントWorldCoder:コードを書くことによって世界モデルを構築し、環境と相互作用する
- Authors: Hao Tang, Darren Key, Kevin Ellis
- Abstract要約: 我々は,環境とのインタラクションに基づいて,世界の知識を表現したPythonプログラムを構築するモデルベースエージェントを提案する。
我々はグリッドワールドにおけるエージェントの研究を行い、我々のアプローチは深いRLに比べてサンプリング効率が良く、ReActスタイルのエージェントよりも計算効率が良いことを発見した。
- 参考スコア(独自算出の注目度): 13.27773827926797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We give a model-based agent that builds a Python program representing its
knowledge of the world based on its interactions with the environment. The
world model tries to explain its interactions, while also being optimistic
about what reward it can achieve. We do this by extending work on program
synthesis via LLMs. We study our agent on gridworlds, finding our approach is
more sample-efficient compared to deep RL, and more compute-efficient compared
to ReAct-style agents.
- Abstract(参考訳): 我々は,環境とのインタラクションに基づいて,世界の知識を表現するPythonプログラムを構築するモデルベースエージェントを提案する。
世界モデルは、その相互作用を説明しつつ、どんな報酬が得られるのかを楽観的に説明しようとします。
LLMを通してプログラム合成の作業を拡張することでこれを実現します。
我々はグリッドワールドにおけるエージェントの研究を行い、我々のアプローチは深いRLに比べてサンプリング効率が良く、ReActスタイルのエージェントよりも計算効率が良いことを発見した。
関連論文リスト
- Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback [71.55265615594669]
本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T20:21:26Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [59.772904419928054]
大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。
本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。
我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - ModelScope-Agent: Building Your Customizable Agent System with
Open-source Large Language Models [74.64651681052628]
本稿では,オープンソースのLCMをコントローラとする実世界のアプリケーションのためのカスタマイズ可能なエージェントフレームワークであるModelScope-Agentを紹介する。
ユーザフレンドリーなシステムライブラリを提供し、カスタマイズ可能なエンジン設計により、複数のオープンソースLLMでモデルトレーニングをサポートする。
ツール使用データ収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、評価にまたがる包括的なフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-09-02T16:50:30Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - RoCo: Dialectic Multi-Robot Collaboration with Large Language Models [13.260289557301688]
我々は,事前学習された大規模言語モデル(LLM)のパワーを利用する,マルチロボット協調のための新しいアプローチを提案する。
そこで,RoCoはロボットエージェントとコミュニケーションし,協調してタスクを完了させることができる。
論文 参考訳(メタデータ) (2023-07-10T17:52:01Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Smaller World Models for Reinforcement Learning [0.5156484100374059]
ベクトル量子化変分オートエンコーダ(VQ-VAE)に基づく世界モデルのための新しいニューラルネットワークアーキテクチャを提案する。
モデルフリーPPOエージェントは、世界モデルからのシミュレーション体験に基づいて純粋に訓練される。
我々はSimPLeアルゴリズムに匹敵する性能を示したが、我々のモデルははるかに小さい。
論文 参考訳(メタデータ) (2020-10-12T15:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。