Fugu-MT 論文翻訳(概要): TSS GAZ PTP: Towards Improving Gumbel AlphaZero with Two-stage Self-play for Multi-constrained Electric Vehicle Routing Problems

論文の概要: TSS GAZ PTP: Towards Improving Gumbel AlphaZero with Two-stage Self-play for Multi-constrained Electric Vehicle Routing Problems

arxiv url: http://arxiv.org/abs/2502.15777v1
Date: Mon, 17 Feb 2025 04:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.75014
Title: TSS GAZ PTP: Towards Improving Gumbel AlphaZero with Two-stage Self-play for Multi-constrained Electric Vehicle Routing Problems
Title（参考訳）: TSS GAZ PTP:多制約電気自動車ルーティング問題に対する2段階自己再生によるガンベルアルファゼロの改善に向けて
Authors: Hui Wang, Xufeng Zhang, Xiaoyu Zhang, Zhenhuan Ding, Chaoxu Mu,
Abstract要約: GAZ法(TSS GAZ PTP)を改善するための2段階のセルフプレイ戦略を提案する。最初の段階では、学習者はGumbel Monte Carlo Tree Search(MCTS)に基づく強化されたポリシーネットワークを使用し、競技者は歴史的に最も訓練されたポリシーネットワーク(グリーディプレーヤーとしての活動)を使用する。第2段階では,Gumbel MCTSを両プレイヤーに採用し,両プレイヤーがよりスマートな軌道を連続的に学習できるように競争を激化させる。
参考スコア（独自算出の注目度）: 13.572275420885457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Gumbel AlphaZero~(GAZ) was proposed to solve classic combinatorial optimization problems such as TSP and JSSP by creating a carefully designed competition model~(consisting of a learning player and a competitor player), which leverages the idea of self-play. However, if the competitor is too strong or too weak, the effectiveness of self-play training can be reduced, particularly in complex CO problems. To address this problem, we further propose a two-stage self-play strategy to improve the GAZ method~(named TSS GAZ PTP). In the first stage, the learning player uses the enhanced policy network based on the Gumbel Monte Carlo Tree Search~(MCTS), and the competitor uses the historical best trained policy network~(acts as a greedy player). In the second stage, we employ Gumbel MCTS for both players, which makes the competition fiercer so that both players can continuously learn smarter trajectories. We first investigate the performance of our proposed TSS GAZ PTP method on TSP since it is also used as a test problem by the original GAZ. The results show the superior performance of TSS GAZ PTP. Then we extend TSS GAZ PTP to deal with multi-constrained Electric Vehicle Routing Problems~(EVRP), which is a recently well-known real application research topic and remains challenging as a complex CO problem. Impressively, the experimental results show that the TSS GAZ PTP outperforms the state-of-the-art Deep Reinforcement Learning methods in all types of instances tested and outperforms the optimization solver in tested large-scale instances, indicating the importance and promising of employing more dynamic self-play strategies for complex CO problems.
Abstract（参考訳）: 近年,Gumbel AlphaZero~(GAZ)は,TSPやJSSPなどの古典的組合せ最適化の問題を解決するために,より慎重に設計された競合モデル~(学習者と競技者による構成)を作成することで,自己演奏の考え方を生かした。しかし、競合相手が強すぎるか弱すぎる場合、特に複雑なCO問題において、セルフプレイトレーニングの有効性を低下させることができる。この問題に対処するため,GAZ法を改良する2段階のセルフプレイ戦略(TSS GAZ PTP)を提案する。第1段階では、学習者はGumbel Monte Carlo Tree Search~(MCTS)に基づいて強化されたポリシーネットワークを使用し、競技者は歴史的に最も訓練されたポリシーネットワーク~(グリーディプレーヤーとして実行する)を使用する。第2段階では,Gumbel MCTSを両プレイヤーに採用し,両プレイヤーがよりスマートな軌道を連続的に学習できるように競争を激化させる。まず,提案手法をTSP上で提案するTAS GAZ PTP法の性能について検討する。その結果,TSS GAZ PTPは優れた性能を示した。次に,TSS GAZ PTPを拡張して,多制約電気自動車ルーティング問題(EVRP)に対処する。実験の結果,TAS GAZ PTPは,テスト対象の大規模インスタンスにおいて,テスト対象のすべてのインスタンスにおいて,最先端のDeep Reinforcement Learning手法よりも優れており,複雑なCO問題に対してよりダイナミックなセルフプレイ戦略を採用することが重要かつ有望であることが示唆された。

関連論文リスト

The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。 SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文参考訳（メタデータ） (2025-07-10T09:05:49Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Policy-Based Self-Competition for Planning Problems [0.0]
我々は、シングルプレイヤータスクをバイナリ出力に変換するために、セルフコンペティションを使用します。 2つのよく知られた最適化問題において,本手法の有効性を示す。
論文参考訳（メタデータ） (2023-06-07T13:02:24Z)
Roulette-Wheel Selection-Based PSO Algorithm for Solving the Vehicle Routing Problem with Time Windows [58.891409372784516]
本稿では,Roulette Wheel Method (RWPSO) を用いた新しいPSO手法を提案する。 RWPSOのSolomon VRPTWベンチマークデータセットを用いた実験は、RWPSOが文学の他の最先端アルゴリズムと競合していることを示している。
論文参考訳（メタデータ） (2023-06-04T09:18:02Z)
Lucy-SKG: Learning to Play Rocket League Efficiently Using Deep Reinforcement Learning [0.0]
本稿では,Rocket Leagueをサンプル効率でプレイする方法を学習した強化学習ベースのモデルであるLucy-SKGを紹介する。コントリビューションには、報酬分析と可視化ライブラリの開発、新しいパラメータ化可能な報酬形状関数、補助的ニューラルネットワークなどがある。
論文参考訳（メタデータ） (2023-05-25T07:33:17Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
Combinatorial Optimization enriched Machine Learning to solve the Dynamic Vehicle Routing Problem with Time Windows [5.4807970361321585]
最適化層を組み込んだ新しい機械学習パイプラインを提案する。最近,EURO Meets NeurIPS Competition at NeurIPS 2022において,このパイプラインを波による動的車両ルーティング問題に適用した。提案手法は,提案した動的車両経路問題の解法において,他の全ての手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-03T08:23:09Z)
Decoupled Adversarial Contrastive Learning for Self-supervised Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。 Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-22T06:30:44Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
A Game-Theoretic Approach for Improving Generalization Ability of TSP Solvers [16.98434288039677]
トレーニング可能なEmphrとemphData Generatorの間に2つのプレイヤーゼロサムフレームワークを導入する。本稿では,トラベリングセールスマン問題におけるタスクにおいて,最も一般化可能なパフォーマンスを実現するためのフレームワークについて述べる。
論文参考訳（メタデータ） (2021-10-28T13:35:22Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文参考訳（メタデータ） (2020-12-24T14:18:56Z)
Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文参考訳（メタデータ） (2020-02-10T18:44:50Z)
Continuous-action Reinforcement Learning for Playing Racing Games: Comparing SPG to PPO [0.0]
OpenAI Gym用の新しいレース環境が導入された。エージェントはランダムに生成されたレーストラックをナビゲートしながら、車のアクセラレーションとステアリングを制御することを学ぶ必要がある。 2つのアクター批判学習アルゴリズムの異なるバージョンが、この環境でテストされている。
論文参考訳（メタデータ） (2020-01-15T12:30:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。