論文の概要: WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
- arxiv url: http://arxiv.org/abs/2504.15785v1
- Date: Tue, 22 Apr 2025 10:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 16:40:33.101410
- Title: WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
- Title(参考訳): WALL-E 2.0: World Model-based LLM Agents を改良したNeuroSymbolic Learningによるワールドアライメント
- Authors: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。
また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。
WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
- 参考スコア(独自算出の注目度): 55.64361927346957
- License:
- Abstract: Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents? The gap between the prior knowledge of LLMs and the specified environment's dynamics usually bottlenecks LLMs' performance as world models. To bridge the gap, we propose a training-free "world alignment" that learns an environment's symbolic knowledge complementary to LLMs. The symbolic knowledge covers action rules, knowledge graphs, and scene graphs, which are extracted by LLMs from exploration trajectories and encoded into executable codes to regulate LLM agents' policies. We further propose an RL-free, model-based agent "WALL-E 2.0" through the model-predictive control (MPC) framework. Unlike classical MPC requiring costly optimization on the fly, we adopt an LLM agent as an efficient look-ahead optimizer of future steps' actions by interacting with the neurosymbolic world model. While the LLM agent's strong heuristics make it an efficient planner in MPC, the quality of its planned actions is also secured by the accurate predictions of the aligned world model. They together considerably improve learning efficiency in a new environment. On open-world challenges in Mars (Minecraft like) and ALFWorld (embodied indoor environments), WALL-E 2.0 significantly outperforms existing methods, e.g., surpassing baselines in Mars by 16.1%-51.6% of success rate and by at least 61.7% in score. In ALFWorld, it achieves a new record 98% success rate after only 4 iterations.
- Abstract(参考訳): 大きな言語モデル(LLM)から正確な世界モデルを構築することはできますか?
世界モデルはどのようにLLMエージェントに利益をもたらすか?
LLMの以前の知識と指定された環境のダイナミクスとのギャップは通常、世界モデルとしてのLLMのパフォーマンスをボトルネックにする。
このギャップを埋めるために,LLMを補完する環境のシンボリック知識を学習する「ワールドアライメント」を提案する。
シンボリック知識は、LLMが探索軌道から抽出し、LLMエージェントのポリシーを規制するために実行可能なコードにエンコードされたアクションルール、知識グラフ、シーングラフをカバーしている。
さらに,モデル予測制御(MPC)フレームワークを用いて,RLフリーなモデルベースエージェントWALL-E 2.0を提案する。
従来のMPCとは異なり、LLMエージェントは、ニューロシンボリック世界モデルと相互作用することで、将来のステップ動作の効率的なルックアヘッドオプティマイザとして採用されている。
LLMエージェントの強いヒューリスティックスは、MPCの効率的なプランナーとなるが、その計画されたアクションの品質は、整列した世界モデルの正確な予測によっても確保される。
これらは新しい環境における学習効率を大幅に向上させる。
火星(Minecraftのような)とALFWorld(屋内環境の身体化)のオープンワールドの課題について、WALL-E 2.0は、火星のベースラインを16.1%-51.6%、スコアを61.7%以上上回っている。
ALFWorldでは、わずか4回で98%の成功率を記録した。
関連論文リスト
- ALU: Agentic LLM Unlearning [9.934258340998047]
大規模言語モデル(LLM)における情報除去または抑制は、AI規制、法的コンプライアンス、安全性、プライバシに有用な、望ましい機能である。
現在のLLMアンラーニング手法は、これらの目的の競合する性質のため、未学習の有効性と実用性のバランスをとるのに苦労している。
LLMアンラーニングに対するマルチエージェント・リトレインフリー・モデル非依存アプローチであるALU法を提案する。
論文 参考訳(メタデータ) (2025-02-01T11:45:44Z) - WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - Mixture-of-Agents Enhances Large Language Model Capabilities [34.68610100315386]
我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。
提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。
MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
論文 参考訳(メタデータ) (2024-06-07T07:04:10Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。
本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。
このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文 参考訳(メタデータ) (2023-11-09T18:54:28Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。