論文の概要: Efficient Reinforcement Learning Through Trajectory Generation
- arxiv url: http://arxiv.org/abs/2211.17249v1
- Date: Wed, 30 Nov 2022 18:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 18:24:52.463213
- Title: Efficient Reinforcement Learning Through Trajectory Generation
- Title(参考訳): 軌道生成による効率的強化学習
- Authors: Wenqi Cui, Linbin Huang, Weiwei Yang, Baosen Zhang
- Abstract要約: 実世界のアプリケーションで強化学習を使用する上で重要な障壁は、優れた制御ポリシーを学ぶために多数のシステムインタラクションが必要であることである。
歴史的データから制御ポリシを学習することにより,物理環境との相互作用を減らすために,オフ・ポリティクスとオフラインRL法が提案されている。
本稿では,新たなトラジェクトリを適応的に生成するトラジェクトリ生成アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.766441610380447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key barrier to using reinforcement learning (RL) in many real-world
applications is the requirement of a large number of system interactions to
learn a good control policy. Off-policy and Offline RL methods have been
proposed to reduce the number of interactions with the physical environment by
learning control policies from historical data. However, their performances
suffer from the lack of exploration and the distributional shifts in
trajectories once controllers are updated. Moreover, most RL methods require
that all states are directly observed, which is difficult to be attained in
many settings.
To overcome these challenges, we propose a trajectory generation algorithm,
which adaptively generates new trajectories as if the system is being operated
and explored under the updated control policies. Motivated by the fundamental
lemma for linear systems, assuming sufficient excitation, we generate
trajectories from linear combinations of historical trajectories. For linear
feedback control, we prove that the algorithm generates trajectories with the
exact distribution as if they are sampled from the real system using the
updated control policy. In particular, the algorithm extends to systems where
the states are not directly observed. Experiments show that the proposed method
significantly reduces the number of sampled data needed for RL algorithms.
- Abstract(参考訳): 多くの実世界のアプリケーションで強化学習(RL)を使用するための鍵となる障壁は、優れた制御ポリシーを学ぶために多数のシステムインタラクションが必要であることである。
歴史的データから制御ポリシを学習することにより,物理環境との相互作用を減らすために,オフ・ポリティクスとオフラインRL法が提案されている。
しかし、彼らのパフォーマンスは探索の欠如と、コントローラが更新されると軌道上の分布シフトに苦しむ。
さらに、ほとんどのRL法では、全ての状態が直接観察されることが要求されるが、多くの設定で達成することは困難である。
これらの課題を克服するため,我々は,システムが更新された制御ポリシーの下で運用されているかのように適応的に新しい軌道を生成する軌道生成アルゴリズムを提案する。
線形系の基本補題に動機付けられ、十分な励起を仮定して、歴史的軌跡の線形結合から軌道を生成する。
線形フィードバック制御では,更新された制御ポリシーを用いて実システムからサンプリングされたかのように,正確な分布を持つ軌道を生成する。
特に、このアルゴリズムは状態が直接観測されないシステムにまで拡張される。
実験の結果,提案手法はRLアルゴリズムに必要なサンプルデータの数を著しく削減することがわかった。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。
また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文 参考訳(メタデータ) (2023-05-20T10:11:09Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Non-Episodic Learning for Online LQR of Unknown Linear Gaussian System [0.0]
単一の軌道からシステムに関する知識を得るオンライン非分離アルゴリズムを提案する。
識別と制御のほぼ確実に収束する割合を特徴付け、探索と搾取の間の最適なトレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-03-24T15:51:28Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。