論文の概要: Learning Control Policies for Variable Objectives from Offline Data
- arxiv url: http://arxiv.org/abs/2308.06127v1
- Date: Fri, 11 Aug 2023 13:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 13:54:32.421684
- Title: Learning Control Policies for Variable Objectives from Offline Data
- Title(参考訳): オフラインデータからの可変目的の学習制御方針
- Authors: Marc Weber, Phillip Swazinna, Daniel Hein, Steffen Udluft, and Volkmar
Sterzing
- Abstract要約: 可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
- 参考スコア(独自算出の注目度): 2.7174376960271154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning provides a viable approach to obtain advanced
control strategies for dynamical systems, in particular when direct interaction
with the environment is not available. In this paper, we introduce a conceptual
extension for model-based policy search methods, called variable objective
policy (VOP). With this approach, policies are trained to generalize
efficiently over a variety of objectives, which parameterize the reward
function. We demonstrate that by altering the objectives passed as input to the
policy, users gain the freedom to adjust its behavior or re-balance
optimization targets at runtime, without need for collecting additional
observation batches or re-training.
- Abstract(参考訳): オフライン強化学習は、動的システムの高度な制御戦略、特に環境との直接的相互作用が利用できない場合に有効なアプローチを提供する。
本稿では,可変目的政策(vop)と呼ばれる,モデルに基づく政策探索法の概念拡張を提案する。
このアプローチでは、ポリシーは様々な目的に対して効率的に一般化するよう訓練され、報酬関数をパラメータ化する。
ポリシーの入力として渡された目的を変更することで、ユーザーは、追加の観察バッチの収集や再訓練を必要とせず、実行時の動作調整や最適化目標の再バランスの自由を得る。
関連論文リスト
- Policy-regularized Offline Multi-objective Reinforcement Learning [11.58560880898882]
我々は、単一目的のオフラインRL問題に対して広く適用されたオフラインポリシー規則化手法を、多目的の設定に拡張する。
本研究では,1) 行動選好の近似による選好非一貫性の実証をフィルタリングすること,2) 政策表現性の高い正規化手法を採用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2024-01-04T12:54:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。