論文の概要: OptionZero: Planning with Learned Options
- arxiv url: http://arxiv.org/abs/2502.16634v1
- Date: Sun, 23 Feb 2025 16:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:11.888204
- Title: OptionZero: Planning with Learned Options
- Title(参考訳): OptionZero: 学習したオプションによる計画
- Authors: Po-Wei Huang, Pei-Chiun Peng, Hung Guei, Ti-Rong Wu,
- Abstract要約: 複雑な環境下での強化学習において,選択肢のあるプランニングが有効であることが示されている。
MuZero にインスパイアされた我々は OptionZero という新しいアプローチを提案する。
OptionZeroはオプションネットワークをMuZeroに統合し、セルフプレイゲームを通じてオプションの自律的な発見を提供する。
- 参考スコア(独自算出の注目度): 6.929921943833662
- License:
- Abstract: Planning with options -- a sequence of primitive actions -- has been shown effective in reinforcement learning within complex environments. Previous studies have focused on planning with predefined options or learned options through expert demonstration data. Inspired by MuZero, which learns superhuman heuristics without any human knowledge, we propose a novel approach, named OptionZero. OptionZero incorporates an option network into MuZero, providing autonomous discovery of options through self-play games. Furthermore, we modify the dynamics network to provide environment transitions when using options, allowing searching deeper under the same simulation constraints. Empirical experiments conducted in 26 Atari games demonstrate that OptionZero outperforms MuZero, achieving a 131.58% improvement in mean human-normalized score. Our behavior analysis shows that OptionZero not only learns options but also acquires strategic skills tailored to different game characteristics. Our findings show promising directions for discovering and using options in planning. Our code is available at https://rlg.iis.sinica.edu.tw/papers/optionzero.
- Abstract(参考訳): プリミティブなアクションのシーケンスであるオプションによるプランニングは、複雑な環境で強化学習に有効であることが示されている。
これまでの研究は、専門家による実証データを通じて、事前に定義された選択肢や学習された選択肢による計画に重点を置いてきた。
人間の知識を使わずに超人的ヒューリスティックを学習する MuZero に触発されて,我々は OptionZero という新しいアプローチを提案する。
OptionZeroはオプションネットワークをMuZeroに統合し、セルフプレイゲームを通じてオプションの自律的な発見を提供する。
さらに、動的ネットワークを変更して、オプションを使用する場合の環境遷移を提供し、同じシミュレーション制約の下でより深く検索できるようにする。
26のアタリゲームで行われた実証実験では、OptionZeroはMuZeroよりも優れており、平均的な人間正規化スコアが131.58%向上している。
我々の行動分析は、OptionZeroが選択肢を学ぶだけでなく、異なるゲーム特性に合わせた戦略的スキルも獲得していることを示している。
本研究は,計画における選択肢の発見と活用に向けた有望な方向性を示すものである。
私たちのコードはhttps://rlg.iis.sinica.edu.tw/papers/optionzero.comで利用可能です。
関連論文リスト
- Interpreting the Learned Model in MuZero Planning [12.47846647115319]
MuZeroは、動的ネットワークを用いて、計画のための環境ダイナミクスを予測することで、様々なゲームで超人的なパフォーマンスを実現している。
本稿では,学習した潜伏状態の解釈により,MuZeroのモデルをデミスティフィケートすることを目的とする。
論文 参考訳(メタデータ) (2024-11-07T10:06:23Z) - UniZero: Generalized and Efficient Planning with Scalable Latent World Models [29.648382211926364]
UniZeroは、モジュールトランスフォーマーベースの世界モデルを使用して、共有潜在空間を効果的に学習する新しいアプローチである。
長期メモリを必要とするベンチマークにおいて、UniZeroが既存のベースラインを大幅に上回ることを示す。
Atari や DMControl のような標準のシングルタスク RL 設定では、UniZero は現在の最先端メソッドのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-06-15T15:24:15Z) - MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games [9.339645051415115]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - Equivariant MuZero [14.027651496499882]
本研究では,環境の対称性を世界モデルアーキテクチャに明示的に組み込むことで,MuZeroのデータ効率と一般化能力の向上を提案する。
我々は、MuZeroが使用するニューラルネットワークが環境に作用する特定の対称性群に同値である限り、MuZeroの行動選択アルゴリズムの全体性も同値であることを示す。
論文 参考訳(メタデータ) (2023-02-09T17:46:29Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - Reward-Respecting Subtasks for Model-Based Reinforcement Learning [13.906158484935098]
強化学習には、状態と時間の抽象的な世界のモデルによる計画を含めなければならない。
この理由の1つは、可能なオプションの空間が膨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。
報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬参照オプションよりも、計画立案に有用であることを示す。
論文 参考訳(メタデータ) (2022-02-07T19:09:27Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。