論文の概要: TSS GAZ PTP: Towards Improving Gumbel AlphaZero with Two-stage Self-play for Multi-constrained Electric Vehicle Routing Problems
- arxiv url: http://arxiv.org/abs/2502.15777v1
- Date: Mon, 17 Feb 2025 04:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:21:22.931438
- Title: TSS GAZ PTP: Towards Improving Gumbel AlphaZero with Two-stage Self-play for Multi-constrained Electric Vehicle Routing Problems
- Title(参考訳): TSS GAZ PTP:多制約電気自動車ルーティング問題に対する2段階自己再生によるガンベルアルファゼロの改善に向けて
- Authors: Hui Wang, Xufeng Zhang, Xiaoyu Zhang, Zhenhuan Ding, Chaoxu Mu,
- Abstract要約: GAZ法(TSS GAZ PTP)を改善するための2段階のセルフプレイ戦略を提案する。
最初の段階では、学習者はGumbel Monte Carlo Tree Search(MCTS)に基づく強化されたポリシーネットワークを使用し、競技者は歴史的に最も訓練されたポリシーネットワーク(グリーディプレーヤーとしての活動)を使用する。
第2段階では,Gumbel MCTSを両プレイヤーに採用し,両プレイヤーがよりスマートな軌道を連続的に学習できるように競争を激化させる。
- 参考スコア(独自算出の注目度): 13.572275420885457
- License:
- Abstract: Recently, Gumbel AlphaZero~(GAZ) was proposed to solve classic combinatorial optimization problems such as TSP and JSSP by creating a carefully designed competition model~(consisting of a learning player and a competitor player), which leverages the idea of self-play. However, if the competitor is too strong or too weak, the effectiveness of self-play training can be reduced, particularly in complex CO problems. To address this problem, we further propose a two-stage self-play strategy to improve the GAZ method~(named TSS GAZ PTP). In the first stage, the learning player uses the enhanced policy network based on the Gumbel Monte Carlo Tree Search~(MCTS), and the competitor uses the historical best trained policy network~(acts as a greedy player). In the second stage, we employ Gumbel MCTS for both players, which makes the competition fiercer so that both players can continuously learn smarter trajectories. We first investigate the performance of our proposed TSS GAZ PTP method on TSP since it is also used as a test problem by the original GAZ. The results show the superior performance of TSS GAZ PTP. Then we extend TSS GAZ PTP to deal with multi-constrained Electric Vehicle Routing Problems~(EVRP), which is a recently well-known real application research topic and remains challenging as a complex CO problem. Impressively, the experimental results show that the TSS GAZ PTP outperforms the state-of-the-art Deep Reinforcement Learning methods in all types of instances tested and outperforms the optimization solver in tested large-scale instances, indicating the importance and promising of employing more dynamic self-play strategies for complex CO problems.
- Abstract(参考訳): 近年,Gumbel AlphaZero~(GAZ)は,TSPやJSSPなどの古典的組合せ最適化の問題を解決するために,より慎重に設計された競合モデル~(学習者と競技者による構成)を作成することで,自己演奏の考え方を生かした。
しかし、競合相手が強すぎるか弱すぎる場合、特に複雑なCO問題において、セルフプレイトレーニングの有効性を低下させることができる。
この問題に対処するため,GAZ法を改良する2段階のセルフプレイ戦略(TSS GAZ PTP)を提案する。
第1段階では、学習者はGumbel Monte Carlo Tree Search~(MCTS)に基づいて強化されたポリシーネットワークを使用し、競技者は歴史的に最も訓練されたポリシーネットワーク~(グリーディプレーヤーとして実行する)を使用する。
第2段階では,Gumbel MCTSを両プレイヤーに採用し,両プレイヤーがよりスマートな軌道を連続的に学習できるように競争を激化させる。
まず,提案手法をTSP上で提案するTAS GAZ PTP法の性能について検討する。
その結果,TSS GAZ PTPは優れた性能を示した。
次に,TSS GAZ PTPを拡張して,多制約電気自動車ルーティング問題(EVRP)に対処する。
実験の結果,TAS GAZ PTPは,テスト対象の大規模インスタンスにおいて,テスト対象のすべてのインスタンスにおいて,最先端のDeep Reinforcement Learning手法よりも優れており,複雑なCO問題に対してよりダイナミックなセルフプレイ戦略を採用することが重要かつ有望であることが示唆された。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Policy-Based Self-Competition for Planning Problems [0.0]
我々は、シングルプレイヤータスクをバイナリ出力に変換するために、セルフコンペティションを使用します。
2つのよく知られた最適化問題において,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-07T13:02:24Z) - Roulette-Wheel Selection-Based PSO Algorithm for Solving the Vehicle
Routing Problem with Time Windows [58.891409372784516]
本稿では,Roulette Wheel Method (RWPSO) を用いた新しいPSO手法を提案する。
RWPSOのSolomon VRPTWベンチマークデータセットを用いた実験は、RWPSOが文学の他の最先端アルゴリズムと競合していることを示している。
論文 参考訳(メタデータ) (2023-06-04T09:18:02Z) - Lucy-SKG: Learning to Play Rocket League Efficiently Using Deep
Reinforcement Learning [0.0]
本稿では,Rocket Leagueをサンプル効率でプレイする方法を学習した強化学習ベースのモデルであるLucy-SKGを紹介する。
コントリビューションには、報酬分析と可視化ライブラリの開発、新しいパラメータ化可能な報酬形状関数、補助的ニューラルネットワークなどがある。
論文 参考訳(メタデータ) (2023-05-25T07:33:17Z) - Combinatorial Optimization enriched Machine Learning to solve the
Dynamic Vehicle Routing Problem with Time Windows [5.4807970361321585]
最適化層を組み込んだ新しい機械学習パイプラインを提案する。
最近,EURO Meets NeurIPS Competition at NeurIPS 2022において,このパイプラインを波による動的車両ルーティング問題に適用した。
提案手法は,提案した動的車両経路問題の解法において,他の全ての手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-03T08:23:09Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - A Game-Theoretic Approach for Improving Generalization Ability of TSP
Solvers [16.98434288039677]
トレーニング可能なEmphrとemphData Generatorの間に2つのプレイヤーゼロサムフレームワークを導入する。
本稿では,トラベリングセールスマン問題におけるタスクにおいて,最も一般化可能なパフォーマンスを実現するためのフレームワークについて述べる。
論文 参考訳(メタデータ) (2021-10-28T13:35:22Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z) - Continuous-action Reinforcement Learning for Playing Racing Games:
Comparing SPG to PPO [0.0]
OpenAI Gym用の新しいレース環境が導入された。
エージェントはランダムに生成されたレーストラックをナビゲートしながら、車のアクセラレーションとステアリングを制御することを学ぶ必要がある。
2つのアクター批判学習アルゴリズムの異なるバージョンが、この環境でテストされている。
論文 参考訳(メタデータ) (2020-01-15T12:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。