論文の概要: AlphaZeroES: Direct score maximization outperforms planning loss minimization
- arxiv url: http://arxiv.org/abs/2406.08687v1
- Date: Wed, 12 Jun 2024 23:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:57:44.918677
- Title: AlphaZeroES: Direct score maximization outperforms planning loss minimization
- Title(参考訳): AlphaZeroES: 直接スコア最大化は計画損失最小化を上回る
- Authors: Carlos Martin, Tuomas Sandholm,
- Abstract要約: 実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
- 参考スコア(独自算出の注目度): 61.17702187957206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning at execution time has been shown to dramatically improve performance for agents in both single-agent and multi-agent settings. A well-known family of approaches to planning at execution time are AlphaZero and its variants, which use Monte Carlo Tree Search together with a neural network that guides the search by predicting state values and action probabilities. AlphaZero trains these networks by minimizing a planning loss that makes the value prediction match the episode return, and the policy prediction at the root of the search tree match the output of the full tree expansion. AlphaZero has been applied to both single-agent environments (such as Sokoban) and multi-agent environments (such as chess and Go) with great success. In this paper, we explore an intriguing question: In single-agent environments, can we outperform AlphaZero by directly maximizing the episode score instead of minimizing this planning loss, while leaving the MCTS algorithm and neural architecture unchanged? To directly maximize the episode score, we use evolution strategies, a family of algorithms for zeroth-order blackbox optimization. Our experiments indicate that, across multiple environments, directly maximizing the episode score outperforms minimizing the planning loss.
- Abstract(参考訳): 実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチとしては、AlphaZeroとその変種がよく知られている。これはMonte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを併用するものだ。
AlphaZeroは、これらのネットワークを、エピソードの戻り値に一致する値予測を最小化する計画損失を最小化し、検索ツリーの根元にあるポリシー予測をフルツリー展開の出力にマッチさせることで訓練する。
AlphaZeroはシングルエージェント環境(ソコバンなど)とマルチエージェント環境(チェスや囲碁など)の両方に適用されており、大きな成功を収めている。
単エージェント環境では、MCTSアルゴリズムとニューラルアーキテクチャをそのまま残しながら、この計画損失を最小化するのではなく、エピソードスコアを直接最大化することで、AlphaZeroを上回りますか?
エピソードスコアを直接最大化するために、ゼロ階ブラックボックス最適化のためのアルゴリズム群である進化戦略を用いる。
実験の結果,複数の環境において,エピソードスコアの最大化は計画損失の最小化よりも優れていた。
関連論文リスト
- Can a Single Tree Outperform an Entire Forest? [5.448070998907116]
一般的な考え方は、単一の決定木は、テスト精度において古典的なランダムな森林を過小評価する。
本研究では,斜め回帰木の試験精度を大幅に向上させることで,このような考え方に挑戦する。
本手法は,木習熟を非制約最適化タスクとして再編成する。
論文 参考訳(メタデータ) (2024-11-26T00:18:18Z) - Self-Adjusting Evolutionary Algorithms Are Slow on Multimodal Landscapes [0.0]
正の結果が他の局所最適値に拡張されないことを示す。
歪んだOneMaxベンチマークでは、自己調整の$(1, lambda)$-EAは、アルゴリズムがローカルオプティマからエスケープされるのを防ぐため、エリート的アルゴリズムと同じように遅くなる。
論文 参考訳(メタデータ) (2024-04-18T10:01:08Z) - Pruning Convolutional Filters via Reinforcement Learning with Entropy
Minimization [0.0]
本稿では,畳み込み活性化の空間エントロピーを最小化する情報理論報酬関数を提案する。
提案手法は,エージェントの報酬関数で直接最適化することなく,精度を維持できる可能性を示している。
論文 参考訳(メタデータ) (2023-12-08T09:34:57Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Policy-Based Self-Competition for Planning Problems [0.0]
我々は、シングルプレイヤータスクをバイナリ出力に変換するために、セルフコンペティションを使用します。
2つのよく知られた最適化問題において,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-07T13:02:24Z) - A Differentiable Loss Function for Learning Heuristics in A* [0.0]
本稿は、絶対値ではなく相対値に依存するため、A*アルゴリズムの高速化につながるとは限らない、と論じる。
緩和策として,A*探索における過度に拡張された状態の上限となるL*損失を提案する。
ソコバンやモーゼなどの迷路ドメインにおける自動計画のための最先端のディープニューラルネットワークの最適化に使用されるL*損失は、解決された問題の割合、確立された計画の品質を大幅に改善し、拡張された状態の数を約50%削減する。
論文 参考訳(メタデータ) (2022-09-12T12:43:05Z) - COPS: Controlled Pruning Before Training Starts [68.8204255655161]
最先端のディープニューラルネットワーク(DNN)プルーニング技術は、トレーニング開始前にワンショットで適用され、プルーニングスコアと呼ばれる単一の基準の助けを借りてスパースアーキテクチャを評価する。
この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。
論文 参考訳(メタデータ) (2021-07-27T08:48:01Z) - Community detection using fast low-cardinality semidefinite programming [94.4878715085334]
局所的な更新を一般化し、ライデン-k-カットから導かれる半定緩和を最大化する、新しい低カルチナリティアルゴリズムを提案する。
提案アルゴリズムはスケーラビリティが高く,最先端のアルゴリズムより優れ,実時間では性能が向上し,追加コストがほとんどない。
論文 参考訳(メタデータ) (2020-12-04T15:46:30Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。