論文の概要: WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
- arxiv url: http://arxiv.org/abs/2410.07484v2
- Date: Fri, 11 Oct 2024 23:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:56:23.203469
- Title: WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
- Title(参考訳): WALL-E: ルール学習による世界アライメントによる世界モデルベースLLMエージェントの改善
- Authors: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang,
- Abstract要約: 大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
- 参考スコア(独自算出の注目度): 55.64361927346957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can large language models (LLMs) directly serve as powerful world models for model-based agents? While the gaps between the prior knowledge of LLMs and the specified environment's dynamics do exist, our study reveals that the gaps can be bridged by aligning an LLM with its deployed environment and such "world alignment" can be efficiently achieved by rule learning on LLMs. Given the rich prior knowledge of LLMs, only a few additional rules suffice to align LLM predictions with the specified environment dynamics. To this end, we propose a neurosymbolic approach to learn these rules gradient-free through LLMs, by inducing, updating, and pruning rules based on comparisons of agent-explored trajectories and world model predictions. The resulting world model is composed of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon model-predictive control (MPC). By optimizing look-ahead actions based on the precise world model, MPC significantly improves exploration and learning efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a few principal rules rather than verbose buffered trajectories being included in the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E achieves higher success rates than existing methods, with lower costs on replanning time and the number of tokens used for reasoning. In Minecraft, WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate surges to a new record high of 95% only after 6 iterations.
- Abstract(参考訳): 大規模言語モデル(LLM)はモデルベースエージェントの強力な世界モデルとして直接機能するのか?
LLMの以前の知識と特定の環境のダイナミクスのギャップは存在するが、LLMをその展開環境と整合させることでギャップを橋渡しすることができ、LLMのルール学習によって「世界整合性」を効果的に達成できることが本研究で明らかとなった。
LLMの豊富な事前知識を考えると、LLM予測と指定された環境力学を整合させるのに十分なルールはいくつかしかない。
そこで本研究では,エージェント探索軌道と世界モデル予測との比較に基づいて,これらの規則を LLM を通して学習するニューロシンボリックアプローチを提案する。
結果として得られる世界モデルは、LLMと学習ルールから構成される。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)に基づいて構築されている。
精密世界モデルに基づくルックアヘッド動作の最適化により、MPCは探索と学習効率を大幅に改善する。
既存のLLMエージェントと比較して、WALL-Eの推論は、LPM入力に含まれる冗長なバッファ付き軌道ではなく、いくつかの主規則のみを必要とする。
MinecraftとALFWorldのオープンワールドチャレンジでは、WALL-Eは既存の方法よりも成功率が高く、時間計画のコストが低く、推論に使用されるトークンの数も少ない。
Minecraftでは、WALL-Eは成功率を15-30%上回り、リプランラウンドのコストは8-20で、トークンの60-80%に過ぎなかった。
ALFWorldでは、成功率は6回の反復で95%という新記録に達した。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [21.689490112983677]
分類タスクに最適な大言語モデル(LLM)に各クエリを動的にルーティングするフレームワークであるMetaLLMを紹介する。
多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。
LLMプラットフォーム上で実施した本実験では,メタLLMの有効性を実世界のシナリオで示す。
論文 参考訳(メタデータ) (2024-07-15T15:45:07Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。
本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。
このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文 参考訳(メタデータ) (2023-11-09T18:54:28Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。