論文の概要: Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search
- arxiv url: http://arxiv.org/abs/2408.10635v3
- Date: Tue, 29 Jul 2025 09:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 19:17:25.886408
- Title: Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search
- Title(参考訳): ストラテジスト:二層木探索によるLCM意思決定の自己改善
- Authors: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu,
- Abstract要約: 大規模言語モデル(LLM)は、強力な一般化とゼロショット能力を示すが、詳細な計画と意思決定を必要とするタスクに苦労する。
両手法の長所を統合する新しいアプローチであるSTRATEGISTを紹介する。
本研究では,部分情報を持つ競合型マルチターンゲームのための最適戦略学習におけるSTRATEGISTの有効性を実証する。
- 参考スコア(独自算出の注目度): 32.657454056329875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional reinforcement learning and planning typically requires vast amounts of data and training to develop effective policies. In contrast, large language models (LLMs) exhibit strong generalization and zero-shot capabilities, but struggle with tasks that require detailed planning and decision-making in complex action spaces. We introduce STRATEGIST, a novel approach that integrates the strengths of both methods. Our approach leverages LLMs to search and update high-level strategies (as text), which are then refined and executed by low-level Monte Carlo Tree Search (MCTS). STRATEGIST is a generalizable framework to optimize the strategy through population-based self-play simulations without the need for any training data. We demonstrate the effectiveness of STRATEGIST in learning optimal strategies for competitive, multi-turn games with partial information, including Game of Pure Strategy (GOPS) and multi-agent, hidden-identity discussion games like The Resistance: Avalon. Our results show that agents equipped with STRATEGIST outperform those trained with traditional RL methods, other LLM-based skill acquisition techniques, pre-existing LLM agents across both game environments and achieves comparable performance against human players.
- Abstract(参考訳): 伝統的な強化学習と計画は通常、効果的な政策を開発するために大量のデータと訓練を必要とする。
対照的に、大きな言語モデル(LLM)は強力な一般化とゼロショット能力を示すが、複雑なアクション空間において詳細な計画と意思決定を必要とするタスクに苦労する。
両手法の長所を統合する新しいアプローチであるSTRATEGISTを紹介する。
提案手法では,低レベルのモンテカルロ木探索 (MCTS) を用いて高レベルの戦略(テキストとして)の検索と更新を行う。
STRATEGISTは、トレーニングデータを必要とせずに、集団ベースのセルフプレイシミュレーションを通じて戦略を最適化するための一般化可能なフレームワークである。
ゲーム・オブ・ピュア・ストラテジー(GOPS)や、レジスタンス・アバロン(英語版)のような多エージェントで隠れた議論ゲームを含む部分的な情報を含む、競争力のある多ターンゲームのための最適な戦略学習におけるSTRATEGISTの有効性を実証する。
以上の結果から, STRATEGISTを用いたエージェントは従来のRL手法, その他のLLMベースのスキル獲得技術, 両ゲーム環境にまたがる既存のLLMエージェントよりも優れており, 対人プレイヤのパフォーマンスに匹敵する。
関連論文リスト
- LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning [4.22453895366234]
本研究では,大規模言語モデル(LLM)に基づく五目AIシステムの開発を目的とする。
五目成層論や論理を理解・適用し、合理的な決定を下すよう設計されている。
広範囲な自己演奏訓練を経て、モデルの五目演奏能力は顕著に強化された。
論文 参考訳(メタデータ) (2025-03-27T16:52:25Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。
この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文 参考訳(メタデータ) (2024-11-08T06:04:22Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning [70.16816087320585]
モンテカルロ木探索 (MCTS) はLLMの推論能力を高める強力な手法として登場した。
既存の蒸留法はMCTSによって生成された豊富な軌跡情報を利用する。
提案するAlphaLLM-CPLは, LLMがMCTSの挙動蒸留により自己改善できる新しいペアワイズトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T03:20:02Z) - Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach [6.154304269581415]
高度な大規模言語モデル(LLM)は、複雑な人間のような相互作用において優れた性能を提供する。
LLMは高価で、スマートフォンのようなエッジデバイスには大きすぎるし、セルフホストが難しいため、セキュリティやプライバシーの懸念が生じる。
本稿では,より小型で経済的なLLMの性能を高めるために,新しい解釈可能な知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T23:59:36Z) - Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:44:32Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Strategic Reasoning with Language Models [35.63300060111918]
戦略的推論は、エージェントが様々な状況において他のエージェントと協力し、コミュニケーションし、競合することを可能にする。
既存の戦略ゲームに対するアプローチは、広範なトレーニングに依存しており、再訓練なしに新しいシナリオやゲームに一般化しない戦略を生み出している。
本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練された大規模言語モデルと数発の連鎖例を用いたアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-30T16:09:19Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。