論文の概要: Generative Planning for Temporally Coordinated Exploration in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.09765v1
- Date: Mon, 24 Jan 2022 15:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 14:31:07.594538
- Title: Generative Planning for Temporally Coordinated Exploration in
Reinforcement Learning
- Title(参考訳): 強化学習における一時協調探索のための生成計画
- Authors: Haichao Zhang, Wei Xu, Haonan Yu
- Abstract要約: ジェネレーティブプランニング法(GPM)は、現在のステップだけでなく、将来のステップでもアクションを生成することができる。
GPMは、その生成した多段階計画を利用して、高価値領域への時間的協調探索を行うことができる。
- 参考スコア(独自算出の注目度): 29.811723497181486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard model-free reinforcement learning algorithms optimize a policy that
generates the action to be taken in the current time step in order to maximize
expected future return. While flexible, it faces difficulties arising from the
inefficient exploration due to its single step nature. In this work, we present
Generative Planning method (GPM), which can generate actions not only for the
current step, but also for a number of future steps (thus termed as generative
planning). This brings several benefits to GPM. Firstly, since GPM is trained
by maximizing value, the plans generated from it can be regarded as intentional
action sequences for reaching high value regions. GPM can therefore leverage
its generated multi-step plans for temporally coordinated exploration towards
high value regions, which is potentially more effective than a sequence of
actions generated by perturbing each action at single step level, whose
consistent movement decays exponentially with the number of exploration steps.
Secondly, starting from a crude initial plan generator, GPM can refine it to be
adaptive to the task, which, in return, benefits future explorations. This is
potentially more effective than commonly used action-repeat strategy, which is
non-adaptive in its form of plans. Additionally, since the multi-step plan can
be interpreted as the intent of the agent from now to a span of time period
into the future, it offers a more informative and intuitive signal for
interpretation. Experiments are conducted on several benchmark environments and
the results demonstrated its effectiveness compared with several baseline
methods.
- Abstract(参考訳): 標準モデルフリー強化学習アルゴリズムは、将来期待されるリターンを最大化するために、現在のステップで取るべきアクションを生成するポリシーを最適化する。
柔軟性はありますが、単一のステップの性質から、非効率な探索から生じる困難に直面します。
本研究は, 生成計画法(GPM)について述べるもので, 現段階だけでなく, 将来段階(生成計画と呼ぶ)にも対応できる。
これはGPMにいくつかのメリットをもたらします。
第一に、GPMは値の最大化によって訓練されるので、そこから生成された計画は、高値領域に到達するための意図的なアクションシーケンスと見なすことができる。
したがって、GPMは、時間的に調整された高値領域への探索のための生成した多段階計画を利用することができ、これは単一のステップレベルで各アクションを摂動させることによって生成される一連のアクションよりも効果的であり、その一貫した動きは探索ステップの数とともに指数関数的に減衰する。
第2に、粗雑な初期計画生成から始まるGPMは、タスクに適応するように洗練することができ、その見返りとして、将来の探索に役立てることができる。
これは、一般的に使用されるアクション・リピート戦略よりも、潜在的に効果的である。
さらに、多段階計画がエージェントの意図と解釈できるため、解釈のためのより情報的で直感的な信号を提供する。
いくつかのベンチマーク環境で実験を行い、その効果をいくつかのベースライン法と比較した。
関連論文リスト
- Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [89.68433168477227]
LLM(Large Language Model)ベースのエージェントは注目され、ますます人気が高まっている。
本稿では,LLMの学習指導による計画能力の向上について検討する。
この制限に対処するために,多様な環境の自動合成と段階的な計画課題について検討する。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Planning with Sequence Models through Iterative Energy Minimization [22.594413287842574]
本稿では,反復的エネルギー最小化の考え方に基づいて,計画とシーケンスモデルを統合するためのアプローチを提案する。
マスク付き言語モデルを用いて、行動軌跡上の暗黙のエネルギー関数を捕捉し、最小エネルギーの行動軌跡を見つけるための計画を立てる。
本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
論文 参考訳(メタデータ) (2023-03-28T17:53:22Z) - Achieving mouse-level strategic evasion performance using real-time
computational planning [59.60094442546867]
計画とは、脳が想像し、予測可能な未来を成立させる特別な能力である。
我々は,動物の生態が空間計画の価値をどのように支配するかという研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。
TLPPOを用いたリアルタイムエージェントの性能とライブマウスの性能を比較し,ロボット捕食者を避けることを課題とする。
論文 参考訳(メタデータ) (2022-11-04T18:34:36Z) - Active Learning of Abstract Plan Feasibility [17.689758291966502]
本稿では,タスクに依存しない,好奇心を抱くロボットの探索を通じて,APF予測器を効率的に取得するための能動的学習手法を提案する。
アクティブラーニング戦略において,本システムでは,本システムでより少ないデータから学習できるように,実用不可能なサブシーケンス特性を活用して,候補計画の立案を行う。
物体が一様でない質量分布を持つ積層領域において,本システムは,400個の自己教師による相互作用において,APFモデルの実際のロボット学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-07-01T18:17:01Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Marginal Utility for Planning in Continuous or Large Discrete Action
Spaces [34.83772836920873]
サンプルベースのプランニングは、環境モデルからインテリジェントな振る舞いを生成するアルゴリズムの強力なファミリーである。
優れた候補行動を生成することは、サンプルベースのプランナーの成功に不可欠である。
限界効用で訓練されたジェネレータは、かなりのドメイン知識に基づいて構築された手書きスキームよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T20:24:53Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。