論文の概要: Upside-Down Reinforcement Learning for More Interpretable Optimal Control
- arxiv url: http://arxiv.org/abs/2411.11457v1
- Date: Mon, 18 Nov 2024 10:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:28:19.690141
- Title: Upside-Down Reinforcement Learning for More Interpretable Optimal Control
- Title(参考訳): より解釈可能な最適制御のための逆ダウン強化学習
- Authors: Juan Cardenas-Cartagena, Massimiliano Falzari, Marco Zullich, Matthia Sabatelli,
- Abstract要約: ニューラルネットワーク(NN)以外の関数近似アルゴリズムも,アップサイドダウン強化学習フレームワークで利用できるかを検討する。
我々の実験は、いくつかの一般的な最適制御ベンチマークで実施され、ランダムフォレストや極端ランダム化ツリーのような木に基づく手法が、NNと同様に動作可能であることを示す。
- 参考スコア(独自算出の注目度): 2.06242362470764
- License:
- Abstract: Model-Free Reinforcement Learning (RL) algorithms either learn how to map states to expected rewards or search for policies that can maximize a certain performance function. Model-Based algorithms instead, aim to learn an approximation of the underlying model of the RL environment and then use it in combination with planning algorithms. Upside-Down Reinforcement Learning (UDRL) is a novel learning paradigm that aims to learn how to predict actions from states and desired commands. This task is formulated as a Supervised Learning problem and has successfully been tackled by Neural Networks (NNs). In this paper, we investigate whether function approximation algorithms other than NNs can also be used within a UDRL framework. Our experiments, performed over several popular optimal control benchmarks, show that tree-based methods like Random Forests and Extremely Randomized Trees can perform just as well as NNs with the significant benefit of resulting in policies that are inherently more interpretable than NNs, therefore paving the way for more transparent, safe, and robust RL.
- Abstract(参考訳): Model-Free Reinforcement Learning (RL)アルゴリズムは、期待される報酬に状態をマップする方法を学ぶか、特定のパフォーマンス機能を最大化できるポリシーを検索する。
モデルベースアルゴリズムは、RL環境の基盤モデルの近似を学習し、計画アルゴリズムと組み合わせて使用することを目的としている。
Upside-Down Reinforcement Learning (UDRL)は、状態と望ましいコマンドからアクションを予測する方法を学ぶことを目的とした、新しい学習パラダイムである。
このタスクは、教師付き学習問題として定式化され、ニューラルネットワーク(NN)によってうまく取り組まれている。
本稿では,NN以外の関数近似アルゴリズムがUDRLフレームワーク内でも利用できるかどうかを検討する。
我々の実験は、いくつかの一般的な最適制御ベンチマークで実施され、ランダムフォレストや極端ランダム化ツリーのような木に基づく手法が、NNよりも本質的に解釈可能なポリシーを生み出すという大きな利点を持つNNと同等に機能し、より透明で安全でロバストなRLへの道を歩むことができることを示した。
関連論文リスト
- Differentiable Tree Search Network [14.972768001402898]
微分可能木探索ネットワーク(D-TSN)は、誘導バイアスを大幅に強化する新しいニューラルネットワークアーキテクチャである。
D-TSNは、完全に差別化可能なオンライン検索を行うために、学習された世界モデルを採用している。
D-TSNは、一般的なモデルフリーおよびモデルベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-22T02:33:38Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Boosted Off-Policy Learning [21.042970740577648]
ログ化された盗聴フィードバックから外部政治学習を行うための最初のブースティングアルゴリズムを提案する。
教師付き学習のための既存の強化手法とは異なり、我々のアルゴリズムはポリシーの期待される報酬の見積を直接最適化する。
本稿では,教師付き学習に基礎学習者を還元する方法を示す。
論文 参考訳(メタデータ) (2022-08-01T21:43:02Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? [15.578423102700764]
本稿では,ニューラルネットを用いたオンライン特徴抽出ネットワーク(OFENet)を提案する。
我々はRLエージェントが低次元状態観測よりも高次元表現でより効率的に学習できることを示す。
論文 参考訳(メタデータ) (2020-03-03T16:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。