Fugu-MT 論文翻訳(概要): PriorZero: Bridging Language Priors and World Models for Decision Making

論文の概要: PriorZero: Bridging Language Priors and World Models for Decision Making

arxiv url: http://arxiv.org/abs/2605.12289v1
Date: Tue, 12 May 2026 15:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.979807
Title: PriorZero: Bridging Language Priors and World Models for Decision Making
Title（参考訳）: PriorZero: 意思決定のためのブリッジ言語優先と世界モデル
Authors: Junyu Xiong, Yuan Pu, Jia Tang, Yazhe Niu,
Abstract要約: 我々は,Large Language Models (LLM) を世界モデルベース計画に統合するための PreferZero を提案する。モンテカルロ木探索(MCTS)のルートノードにLLM前駆体を内包する新しいルート優先注入機構 JerichoのテキストベースのアドベンチャーゲームやBabyAIの命令追従グリッドワールドタスクなど、さまざまなベンチマークの実験では、PredorZeroが探索効率と性能の両方を一貫して改善していることが示されている。
参考スコア（独自算出の注目度）: 5.535841838681759
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Leveraging the rich world knowledge of Large Language Models (LLMs) to enhance Reinforcement Learning (RL) agents offers a promising path toward general intelligence. However, a fundamental prior-dynamics mismatch hinders existing approaches: static LLM knowledge cannot directly adapt to the complex transition dynamics of long-horizon tasks. Using LLM priors as fixed policies limits exploration diversity, as the prior is blind to environment-specific dynamics; while end-to-end fine-tuning suffers from optimization instability and credit assignment issues. To bridge this gap, we propose PriorZero, a unified framework that integrates LLM-derived conceptual priors into world-model-based planning through a decoupled rollout-training design. During rollout, a novel root-prior injection mechanism incorporates LLM priors exclusively at the root node of Monte Carlo Tree Search (MCTS), focusing search on semantically promising actions while preserving the world model's deep lookahead capability. During training, PriorZero decouples world-model learning from LLM adaptation: the world model is continuously refined on interaction data to jointly improve its dynamics, policy, and value predictions, its value estimates are then leveraged to provide fine-grained credit assignment signals for stable LLM fine-tuning via alternating optimization. Experiments across diverse benchmarks, including text-based adventure games in Jericho and instruction-following gridworld tasks in BabyAI, demonstrate that PriorZero consistently improves both exploration efficiency and asymptotic performance, establishing a promising framework for LLM-empowered decision-making. Our code is available at https://github.com/opendilab/LightZero.
Abstract（参考訳）: 大規模言語モデル(LLM)の豊かな世界知識を活用して強化学習(RL)エージェントを強化することで、汎用インテリジェンスへの有望な道筋を提供する。しかし、基本的な事前力学ミスマッチは既存のアプローチを妨げる: 静的LSM知識は、長い水平タスクの複雑な遷移力学に直接適応できない。 LLMプリエントを固定ポリシーとして使用すると、探索の多様性が制限され、前者は環境固有のダイナミクスに盲目である。このギャップを埋めるため,LLMから派生した概念的事前概念を分離したロールアウト学習設計によるワールドモデルベース計画に統合する統合フレームワークであるPredorZeroを提案する。ロールアウトの間、新しいルートプライアインジェクションメカニズムは、MCTS(Monte Carlo Tree Search)のルートノードにのみLLMプリエントを組み込んでおり、世界モデルの深いルックアヘッド能力を維持しながら、意味的に有望なアクションを探索することに重点を置いている。トレーニング中、PredorZeroはLLM適応から世界モデル学習を分離する:世界モデルは相互作用データに基づいて連続的に洗練され、そのダイナミクス、ポリシー、価値予測を共同で改善し、その値推定を利用して、安定したLLM微調整のためのきめ細かい信用代入信号を提供する。 JerichoでのテキストベースのアドベンチャーゲームやBabyAIでの命令追従グリッドワールドタスクなど、さまざまなベンチマークの実験では、PredorZeroは探索効率と漸近的パフォーマンスの両方を一貫して改善し、LCMを利用した意思決定のための有望なフレームワークを確立している。私たちのコードはhttps://github.com/opendilab/LightZero.comから入手可能です。

論文の概要: PriorZero: Bridging Language Priors and World Models for Decision Making

関連論文リスト