論文の概要: Monte Carlo Planning with Large Language Model for Text-Based Game Agents
- arxiv url: http://arxiv.org/abs/2504.16855v1
- Date: Wed, 23 Apr 2025 16:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:17:25.334069
- Title: Monte Carlo Planning with Large Language Model for Text-Based Game Agents
- Title(参考訳): テキスト型ゲームエージェントのための大規模言語モデルによるモンテカルロ計画
- Authors: Zijing Shi, Meng Fang, Ling Chen,
- Abstract要約: 動的メモリ誘導大言語モデル (MC-DML) を用いたモンテカルロ計画法を提案する。
MC-DMLは、大規模言語モデル(LLM)の言語理解と推論能力と、ツリー探索アルゴリズムの探索的優位性を利用する。
MC-DMLアルゴリズムは,初期計画段階での各種ゲームの性能を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 27.385517721352368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based games provide valuable environments for language-based autonomous agents. However, planning-then-learning paradigms, such as those combining Monte Carlo Tree Search (MCTS) and reinforcement learning (RL), are notably time-consuming due to extensive iterations. Additionally, these algorithms perform uncertainty-driven exploration but lack language understanding and reasoning abilities. In this paper, we introduce the Monte Carlo planning with Dynamic Memory-guided Large language model (MC-DML) algorithm. MC-DML leverages the language understanding and reasoning capabilities of Large Language Models (LLMs) alongside the exploratory advantages of tree search algorithms. Specifically, we enhance LLMs with in-trial and cross-trial memory mechanisms, enabling them to learn from past experiences and dynamically adjust action evaluations during planning. We conduct experiments on a series of text-based games from the Jericho benchmark. Our results demonstrate that the MC-DML algorithm significantly enhances performance across various games at the initial planning phase, outperforming strong contemporary methods that require multiple iterations. This demonstrates the effectiveness of our algorithm, paving the way for more efficient language-grounded planning in complex environments.
- Abstract(参考訳): テキストベースのゲームは、言語ベースの自律エージェントに貴重な環境を提供する。
しかし,モンテカルロ木探索 (MCTS) と強化学習 (RL) を併用した計画学習パラダイムは,大規模な反復により,特に時間を要する。
さらに、これらのアルゴリズムは不確実性に基づく探索を行うが、言語理解と推論能力は欠如している。
本稿では,動的メモリ誘導大言語モデル (MC-DML) を用いたモンテカルロ計画手法を提案する。
MC-DMLは、大規模言語モデル(LLM)の言語理解と推論能力と、ツリー探索アルゴリズムの探索的優位性を利用する。
具体的には,従来の経験から学習し,計画中の行動評価を動的に調整できるように,社内記憶機構と相互記憶機構によるLCMの強化を行う。
我々はJerichoベンチマークから一連のテキストベースのゲームについて実験を行った。
その結果、MC-DMLアルゴリズムは、初期計画段階で様々なゲーム間で性能を著しく向上させ、複数のイテレーションを必要とする強力な現代手法よりも優れていた。
これにより、複雑な環境下でのより効率的な言語ベースプランニングの道を開いたアルゴリズムの有効性が示される。
関連論文リスト
- Large Language Models as Common-Sense Heuristics [0.9093413254392775]
大規模言語モデル(LLM)は、幅広いトピックにまたがるパラメトリドな知識を持ち、彼らのソリューションにおける計画タスクの自然言語記述を活用できる。
本研究では,LLMのパラメトリド知識をヒルクライミングサーチの出力として利用することにより,新たな計画手法を提案する。
提案手法は,共通住宅環境における類似システムのタスク成功率を22ポイント向上させ,一貫した計画を立てる。
論文 参考訳(メタデータ) (2025-01-31T00:26:38Z) - Mastering Board Games by External and Internal Planning with Language Models [30.782334791241556]
探索に基づくプランニングにより,大規模言語モデルによるゲームプレイ能力の大幅な向上が期待できることを示す。
外部探索では,モンテカルロ木探索のロールアウトと評価を外部ゲームエンジンに呼び出しずにガイドし,内部探索では,探索の線形化木と最終的な選択をインコンテキストで生成するように訓練する。
提案手法は,探索とドメイン知識を組み合わせることで,ボードゲームに特化せず,より汎用的な応用を示唆するものである。
論文 参考訳(メタデータ) (2024-12-02T18:56:51Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Enabling MCTS Explainability for Sequential Planning Through Computation Tree Logic [8.832654509932565]
モンテカルロ木探索(MCTS)は、シーケンシャルな計画作業のための最も有能なオンライン検索アルゴリズムの1つである。
実世界のデプロイメントにおけるパフォーマンスは高いが、MCTSの本質的な計算は、技術的なバックグラウンドのないユーザにとって理解を困難にしている。
本稿では,MCTSを交通ルーティングサービスに利用し,最適化された経路計画を構築するためにアルゴリズムを統合することを検討する。
論文 参考訳(メタデータ) (2024-07-15T15:35:09Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。