論文の概要: Backward Learning for Goal-Conditioned Policies
- arxiv url: http://arxiv.org/abs/2312.05044v2
- Date: Mon, 15 Apr 2024 08:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:07:44.917591
- Title: Backward Learning for Goal-Conditioned Policies
- Title(参考訳): ゴールコンディション型政策の後方学習
- Authors: Marc Höftmann, Jan Robine, Stefan Harmeling,
- Abstract要約: 本稿では,まず逆行する世界モデルを学習し,第2に目標到達逆行を発生させ,第3に最短経路探索アルゴリズムを用いてこれらのシーケンスを改良する多段階手順を提案する。
我々は,64ドル64セントの鳥の眼像を6,4倍の確率で観測できる決定論的迷路環境において,その有効性を検証し,連続的にいくつかの目標を達成することを示す。
- 参考スコア(独自算出の注目度): 3.3181276611945263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we learn policies in reinforcement learning without rewards? Can we learn a policy just by trying to reach a goal state? We answer these questions positively by proposing a multi-step procedure that first learns a world model that goes backward in time, secondly generates goal-reaching backward trajectories, thirdly improves those sequences using shortest path finding algorithms, and finally trains a neural network policy by imitation learning. We evaluate our method on a deterministic maze environment where the observations are $64\times 64$ pixel bird's eye images and can show that it consistently reaches several goals.
- Abstract(参考訳): 報酬のない強化学習の政策を学べるか?
目標状態に到達しようとするだけで,ポリシを学べますか?
これらの疑問に対して,まずは逆行する世界モデルを学習し,第2に目標達成後進軌跡を生成し,第3に最短経路探索アルゴリズムを用いてこれらのシーケンスを改善し,最終的には模倣学習によってニューラルネットワークポリシーを訓練する多段階的手順を提案する。
我々は,64ドル64セントの鳥の眼球画像が6,4\times 6 である決定論的迷路環境において,その有効性を検証し,連続的にいくつかの目標に達することを示す。
関連論文リスト
- Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning [7.740002320506015]
一定の負の報酬を用いて2~3時間以内に画素ベースのポリシーをスクラッチから学習できることが示される。
4つの異なる実ロボティックプラットフォームを用いて, 一定の負の報酬を用いて, ゼロから2~3時間以内に画素ベースのポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-29T05:55:33Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - C3PO: Learning to Achieve Arbitrary Goals via Massively Entropic
Pretraining [47.87921493422219]
任意の位置とポーズを達成可能なポリシーを学習する手法を提案する。
このようなポリシーにより、制御が容易になり、下流タスクのキービルディングブロックとして再利用できる。
論文 参考訳(メタデータ) (2022-11-07T13:02:40Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Learning for Visual Navigation by Imagining the Success [66.99810227193196]
我々は,成功(下位)ゴーナル状態の潜在表現を想像することを提案する。
ForeSITは、成功につながる将来の状態の繰り返しの潜在表現を想像するように訓練されています。
ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
論文 参考訳(メタデータ) (2021-02-28T10:25:46Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。