論文の概要: Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts
- arxiv url: http://arxiv.org/abs/2006.05911v3
- Date: Thu, 18 Nov 2021 16:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:38:34.180884
- Title: Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts
- Title(参考訳): 解釈可能な専門家の混合による連続的行動強化学習
- Authors: Riad Akrour, Davide Tateo, Jan Peters
- Abstract要約: 本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
- 参考スコア(独自算出の注目度): 35.80418547105711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated its ability to solve high
dimensional tasks by leveraging non-linear function approximators. However,
these successes are mostly achieved by 'black-box' policies in simulated
domains. When deploying RL to the real world, several concerns regarding the
use of a 'black-box' policy might be raised. In order to make the learned
policies more transparent, we propose in this paper a policy iteration scheme
that retains a complex function approximator for its internal value predictions
but constrains the policy to have a concise, hierarchical, and human-readable
structure, based on a mixture of interpretable experts. Each expert selects a
primitive action according to a distance to a prototypical state. A key design
decision to keep such experts interpretable is to select the prototypical
states from trajectory data. The main technical contribution of the paper is to
address the challenges introduced by this non-differentiable prototypical state
selection procedure. Experimentally, we show that our proposed algorithm can
learn compelling policies on continuous action deep RL benchmarks, matching the
performance of neural network based policies, but returning policies that are
more amenable to human inspection than neural network or linear-in-feature
policies.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 非線形関数近似を用いて高次元課題を解く能力を示した。
しかし、これらの成功は主に模擬領域における「黒箱」政策によって達成される。
RLを現実世界にデプロイする場合、"ブラックボックス"ポリシーの使用に関するいくつかの懸念が提起される可能性がある。
本稿では,学習方針をより透明にするために,その内的価値予測に近似する複雑な関数を保ちながら,解釈可能な専門家の混合に基づいて,簡潔で階層的で可読な構造を持つようにポリシーを制約する政策反復スキームを提案する。
各専門家は、原型状態までの距離に応じて原始的な行動を選択する。
このような専門家を解釈し続けるための重要な設計決定は、軌跡データから原型状態を選択することである。
論文の主な技術的貢献は、この非微分可能な原型的状態選択手順によって引き起こされる課題に対処することである。
実験により,提案アルゴリズムは,ニューラルネットワークに基づくポリシのパフォーマンスに適合しながら,ニューラルネットワークやリニア・イン・フェールポリシよりも人間の検査に適するポリシを返却する,連続的なアクション深度RLベンチマークに関する説得力のあるポリシを学習できることが示唆された。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。