論文の概要: More Efficient Exploration with Symbolic Priors on Action Sequence
Equivalences
- arxiv url: http://arxiv.org/abs/2110.10632v1
- Date: Wed, 20 Oct 2021 15:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 17:59:18.539708
- Title: More Efficient Exploration with Symbolic Priors on Action Sequence
Equivalences
- Title(参考訳): 行動系列同値に関する記号的先行によるより効率的な探索
- Authors: Toby Johnstone, Nathan Grinsztajn, Johan Ferret, Philippe Preux
- Abstract要約: 本稿では,アクションシーケンスの等価性に関する先行情報を活用することの問題点について考察する。
本稿では,衝突を最小限に抑え,新しい国家訪問を最大化するために,新たな地域探査戦略を提案する。
凸最適化問題を解くことにより,この戦略を少ないコストで計算できることが示される。
- 参考スコア(独自算出の注目度): 6.442356504327479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating prior knowledge in reinforcement learning algorithms is mainly
an open question. Even when insights about the environment dynamics are
available, reinforcement learning is traditionally used in a tabula rasa
setting and must explore and learn everything from scratch. In this paper, we
consider the problem of exploiting priors about action sequence equivalence:
that is, when different sequences of actions produce the same effect. We
propose a new local exploration strategy calibrated to minimize collisions and
maximize new state visitations. We show that this strategy can be computed at
little cost, by solving a convex optimization problem. By replacing the usual
epsilon-greedy strategy in a DQN, we demonstrate its potential in several
environments with various dynamic structures.
- Abstract(参考訳): 強化学習アルゴリズムに事前知識を組み込むことは、主にオープン質問である。
環境ダイナミクスに関する洞察が利用可能である場合でも、強化学習は伝統的にタブララサ設定で使われ、すべてをスクラッチから探索し、学習しなければならない。
本稿では,アクションシーケンスの等価性に関する先行問題,すなわち,異なるアクションシーケンスが同じ効果をもたらす場合の問題を考察する。
我々は,衝突を最小限に抑え,新しい国家訪問を最大化する新しい地域探査戦略を提案する。
凸最適化問題を解くことにより,この戦略を少ないコストで計算できることが示される。
DQNにおける通常のepsilon-greedy戦略を置き換えることで、様々な動的構造を持ついくつかの環境でその可能性を示す。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning [12.608461657195367]
本研究では,累積的後悔を最小限に抑える近似アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題について検討する。
我々は、この共有構造を学習するために、トランスフォーマーを意思決定アルゴリズムとして使用し、テストタスクに一般化する。
提案アルゴリズムは,問題の根底にある構造を知ることなく,コンテキスト内でほぼ最適のポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T16:34:31Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Boosting Exploration in Actor-Critic Algorithms by Incentivizing
Plausible Novel States [9.210923191081864]
Actor-critic (AC)アルゴリズムは、モデルなしの深層強化学習アルゴリズムのクラスである。
本稿では,国家の新規性の測定に基づく本質的な報酬による探索を促進する新しい手法を提案する。
可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。
論文 参考訳(メタデータ) (2022-10-01T07:07:11Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Online Baum-Welch algorithm for Hierarchical Imitation Learning [7.271970309320002]
オプションフレームワークで階層的な模倣学習を行うためのオンラインアルゴリズムを提案する。
このアプローチは離散環境と連続環境の両方でうまく機能することを示す。
論文 参考訳(メタデータ) (2021-03-22T22:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。