論文の概要: Goal-conditioned Offline Planning from Curious Exploration
- arxiv url: http://arxiv.org/abs/2311.16996v1
- Date: Tue, 28 Nov 2023 17:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:11:17.743671
- Title: Goal-conditioned Offline Planning from Curious Exploration
- Title(参考訳): 曲がりくねった探索からのゴール条件付きオフライン計画
- Authors: Marco Bagatella, Georg Martius
- Abstract要約: 本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
- 参考スコア(独自算出の注目度): 28.953718733443143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curiosity has established itself as a powerful exploration strategy in deep
reinforcement learning. Notably, leveraging expected future novelty as
intrinsic motivation has been shown to efficiently generate exploratory
trajectories, as well as a robust dynamics model. We consider the challenge of
extracting goal-conditioned behavior from the products of such unsupervised
exploration techniques, without any additional environment interaction. We find
that conventional goal-conditioned reinforcement learning approaches for
extracting a value function and policy fall short in this difficult offline
setting. By analyzing the geometry of optimal goal-conditioned value functions,
we relate this issue to a specific class of estimation artifacts in learned
values. In order to mitigate their occurrence, we propose to combine
model-based planning over learned value landscapes with a graph-based value
aggregation scheme. We show how this combination can correct both local and
global artifacts, obtaining significant improvements in zero-shot goal-reaching
performance across diverse simulated environments.
- Abstract(参考訳): 好奇心は深い強化学習における強力な探索戦略として確立されてきた。
特に、将来予想される新奇性を本質的な動機として活用することで、探索軌道を効率的に生成し、ロバストなダイナミクスモデルが示されている。
我々は,このような非教師あり探索技術の製品から,追加の環境相互作用を伴わずに目標条件付き行動を抽出することの課題を考える。
この難解なオフライン環境では,価値関数とポリシを抽出する従来の目標条件強化学習手法が不足していることがわかった。
最適目標条件値関数の幾何学を解析することにより,この問題を学習値の特定の推定アーティファクトに関連付ける。
それらの発生を緩和するために,学習価値景観上のモデルベース計画とグラフベースの価値集約スキームを組み合わせることを提案する。
我々は,この組み合わせが地域とグローバルの両方のアーティファクトを補正する方法を示し,様々なシミュレーション環境におけるゼロショット目標到達性能の大幅な改善を得た。
関連論文リスト
- A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Implicit Training of Energy Model for Structure Prediction [14.360826930970765]
本研究では,既存の推論ネットワークに基づく構造予測手法が,エネルギーモデルによりパラメータ化された動的損失目標を最適化するために間接的に学習されていることを論じる。
次に、暗黙の漸進的手法を用いて、対応する動的目的を学習する。
論文 参考訳(メタデータ) (2022-11-21T17:08:44Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Provable Representation Learning for Imitation with Contrastive Fourier
Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。
主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。
我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文 参考訳(メタデータ) (2021-05-26T00:31:30Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。