論文の概要: PriorZero: Bridging Language Priors and World Models for Decision Making
- arxiv url: http://arxiv.org/abs/2605.12289v1
- Date: Tue, 12 May 2026 15:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.979807
- Title: PriorZero: Bridging Language Priors and World Models for Decision Making
- Title(参考訳): PriorZero: 意思決定のためのブリッジ言語優先と世界モデル
- Authors: Junyu Xiong, Yuan Pu, Jia Tang, Yazhe Niu,
- Abstract要約: 我々は,Large Language Models (LLM) を世界モデルベース計画に統合するための PreferZero を提案する。
モンテカルロ木探索(MCTS)のルートノードにLLM前駆体を内包する新しいルート優先注入機構
JerichoのテキストベースのアドベンチャーゲームやBabyAIの命令追従グリッドワールドタスクなど、さまざまなベンチマークの実験では、PredorZeroが探索効率と性能の両方を一貫して改善していることが示されている。
- 参考スコア(独自算出の注目度): 5.535841838681759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the rich world knowledge of Large Language Models (LLMs) to enhance Reinforcement Learning (RL) agents offers a promising path toward general intelligence. However, a fundamental prior-dynamics mismatch hinders existing approaches: static LLM knowledge cannot directly adapt to the complex transition dynamics of long-horizon tasks. Using LLM priors as fixed policies limits exploration diversity, as the prior is blind to environment-specific dynamics; while end-to-end fine-tuning suffers from optimization instability and credit assignment issues. To bridge this gap, we propose PriorZero, a unified framework that integrates LLM-derived conceptual priors into world-model-based planning through a decoupled rollout-training design. During rollout, a novel root-prior injection mechanism incorporates LLM priors exclusively at the root node of Monte Carlo Tree Search (MCTS), focusing search on semantically promising actions while preserving the world model's deep lookahead capability. During training, PriorZero decouples world-model learning from LLM adaptation: the world model is continuously refined on interaction data to jointly improve its dynamics, policy, and value predictions, its value estimates are then leveraged to provide fine-grained credit assignment signals for stable LLM fine-tuning via alternating optimization. Experiments across diverse benchmarks, including text-based adventure games in Jericho and instruction-following gridworld tasks in BabyAI, demonstrate that PriorZero consistently improves both exploration efficiency and asymptotic performance, establishing a promising framework for LLM-empowered decision-making. Our code is available at https://github.com/opendilab/LightZero.
- Abstract(参考訳): 大規模言語モデル(LLM)の豊かな世界知識を活用して強化学習(RL)エージェントを強化することで、汎用インテリジェンスへの有望な道筋を提供する。
しかし、基本的な事前力学ミスマッチは既存のアプローチを妨げる: 静的LSM知識は、長い水平タスクの複雑な遷移力学に直接適応できない。
LLMプリエントを固定ポリシーとして使用すると、探索の多様性が制限され、前者は環境固有のダイナミクスに盲目である。
このギャップを埋めるため,LLMから派生した概念的事前概念を分離したロールアウト学習設計によるワールドモデルベース計画に統合する統合フレームワークであるPredorZeroを提案する。
ロールアウトの間、新しいルートプライアインジェクションメカニズムは、MCTS(Monte Carlo Tree Search)のルートノードにのみLLMプリエントを組み込んでおり、世界モデルの深いルックアヘッド能力を維持しながら、意味的に有望なアクションを探索することに重点を置いている。
トレーニング中、PredorZeroはLLM適応から世界モデル学習を分離する:世界モデルは相互作用データに基づいて連続的に洗練され、そのダイナミクス、ポリシー、価値予測を共同で改善し、その値推定を利用して、安定したLLM微調整のためのきめ細かい信用代入信号を提供する。
JerichoでのテキストベースのアドベンチャーゲームやBabyAIでの命令追従グリッドワールドタスクなど、さまざまなベンチマークの実験では、PredorZeroは探索効率と漸近的パフォーマンスの両方を一貫して改善し、LCMを利用した意思決定のための有望なフレームワークを確立している。
私たちのコードはhttps://github.com/opendilab/LightZero.comから入手可能です。
関連論文リスト
- Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - A Meta-Knowledge-Augmented LLM Framework for Hyperparameter Optimization in Time-Series Forecasting [0.0]
LLM-AutoOptは,BOとLLMに基づく文脈推論を組み合わせたハイブリッドHPOフレームワークである。
LLM-AutoOpt はメタ知識のない BO や LLM のベースラインと比較して,予測性能の向上と解釈可能な最適化動作の向上を実現している。
論文 参考訳(メタデータ) (2026-02-01T21:26:57Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。