論文の概要: PolicyEvolve: Evolving Programmatic Policies by LLMs for multi-player games via Population-Based Training
- arxiv url: http://arxiv.org/abs/2509.06053v1
- Date: Sun, 07 Sep 2025 13:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.836799
- Title: PolicyEvolve: Evolving Programmatic Policies by LLMs for multi-player games via Population-Based Training
- Title(参考訳): PolicyEvolve: 人口ベーストレーニングによるマルチプレイヤーゲームのためのLCMによるプログラムポリシーの展開
- Authors: Mingrui Lv, Hangzhi Liu, Zhi Luo, Hongjie Zhang, Jie Ou,
- Abstract要約: PolicyEvolveはマルチプレイヤーゲームでプログラムポリシーを生成するためのフレームワークである。
これは、手作業によるポリシーコードへの依存を減らし、最小限の環境相互作用で高性能なポリシーを実現する。
グローバルプールから上位3つのポリシーをサンプリングし、環境情報に基づいて現在のイテレーションの初期ポリシーを生成し、軌道批判からのフィードバックを使ってこのポリシーを洗練します。
- 参考スコア(独自算出の注目度): 4.5232365105005155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has achieved significant progress in solving complex multi-player games through self-play. However, training effective adversarial policies requires millions of experience samples and substantial computational resources. Moreover, these policies lack interpretability, hindering their practical deployment. Recently, researchers have successfully leveraged Large Language Models (LLMs) to generate programmatic policies for single-agent tasks, transforming neural network-based policies into interpretable rule-based code with high execution efficiency. Inspired by this, we propose PolicyEvolve, a general framework for generating programmatic policies in multi-player games. PolicyEvolve significantly reduces reliance on manually crafted policy code, achieving high-performance policies with minimal environmental interactions. The framework comprises four modules: Global Pool, Local Pool, Policy Planner, and Trajectory Critic. The Global Pool preserves elite policies accumulated during iterative training. The Local Pool stores temporary policies for the current iteration; only sufficiently high-performing policies from this pool are promoted to the Global Pool. The Policy Planner serves as the core policy generation module. It samples the top three policies from the Global Pool, generates an initial policy for the current iteration based on environmental information, and refines this policy using feedback from the Trajectory Critic. Refined policies are then deposited into the Local Pool. This iterative process continues until the policy achieves a sufficiently high average win rate against the Global Pool, at which point it is integrated into the Global Pool. The Trajectory Critic analyzes interaction data from the current policy, identifies vulnerabilities, and proposes directional improvements to guide the Policy Planner
- Abstract(参考訳): マルチエージェント強化学習 (MARL) は, 複雑なマルチプレイヤーゲームにおいて, 自己学習によって大きな進歩を遂げている。
しかし、効果的な敵政策の訓練には、何百万もの経験サンプルとかなりの計算資源が必要である。
さらに、これらのポリシーは解釈可能性に欠け、実践的な展開を妨げる。
最近、研究者はLarge Language Models(LLM)を利用して単一エージェントタスクのプログラムポリシーを生成し、ニューラルネットワークベースのポリシーを高い実行効率で解釈可能なルールベースコードに変換することに成功した。
そこで本研究では,マルチプレイヤーゲームにおけるプログラムポリシー生成のための一般的なフレームワークであるPolicyEvolveを提案する。
PolicyEvolveは、手作業によるポリシーコードへの依存を著しく減らし、環境相互作用を最小限に抑えた高性能なポリシーを実現する。
フレームワークはGlobal Pool, Local Pool, Policy Planner, Trajectory Criticの4つのモジュールで構成されている。
グローバルプールは、反復訓練中に蓄積されたエリート政策を保護している。
ローカルプールは、現在のイテレーションの一時的なポリシーを格納しており、このプールからの十分なハイパフォーマンスなポリシーだけがグローバルプールに昇格している。
ポリシープランナーは、コアポリシー生成モジュールとして機能する。
グローバルプールから上位3つのポリシーをサンプリングし、環境情報に基づいて現在のイテレーションの初期ポリシーを生成し、軌道批判からのフィードバックを使ってこのポリシーを洗練します。
精錬された政策はその後、地方プールに預けられる。
この反復的なプロセスは、政策がグローバルプールに対して十分に高い平均的な勝利率を達成するまで継続し、その時点でグローバルプールに統合される。
Trajectory Criticは、現在のポリシーからインタラクションデータを分析し、脆弱性を特定し、ポリシープランナーを導くための方向性の改善を提案している。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles [8.690292392686665]
Fusion-PSROはNash Policy Fusionを採用し、Best Responseトレーニングのための新しいポリシーを初期化している。
ナッシュ・ポリシー・フュージョン(Nash Policy Fusion)は、現在のMeta-NEの探索を開始する暗黙の指針となる政策である。
過去のポリシーの重み付けされた移動平均を洞察的に捉え、各イテレーションのMeta-NEに基づいて、これらの重みを動的に調整する。
論文 参考訳(メタデータ) (2024-05-31T17:16:29Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-15T00:53:03Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement
Learning with Domain Randomization [10.789649934346004]
循環政策蒸留法(CPD)という試料効率の高い手法を提案する。
CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。
学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
論文 参考訳(メタデータ) (2022-07-29T09:22:53Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。