論文の概要: Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.13060v2
- Date: Thu, 28 Apr 2022 02:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 11:41:16.006470
- Title: Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning
- Title(参考訳): Bisimulationはゴール・コンディション強化学習におけるアナロジーを作る
- Authors: Philippe Hansen-Estruch, Amy Zhang, Ashvin Nair, Patrick Yin, Sergey
Levine
- Abstract要約: リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
- 参考スコア(独自算出の注目度): 71.52722621691365
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Building generalizable goal-conditioned agents from rich observations is a
key to reinforcement learning (RL) solving real world problems. Traditionally
in goal-conditioned RL, an agent is provided with the exact goal they intend to
reach. However, it is often not realistic to know the configuration of the goal
before performing a task. A more scalable framework would allow us to provide
the agent with an example of an analogous task, and have the agent then infer
what the goal should be for its current state. We propose a new form of state
abstraction called goal-conditioned bisimulation that captures functional
equivariance, allowing for the reuse of skills to achieve new goals. We learn
this representation using a metric form of this abstraction, and show its
ability to generalize to new goals in simulation manipulation tasks. Further,
we prove that this learned representation is sufficient not only for goal
conditioned tasks, but is amenable to any downstream task described by a
state-only reward function. Videos can be found at
https://sites.google.com/view/gc-bisimulation.
- Abstract(参考訳): リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
伝統的に、目標条件付きrlでは、エージェントは到達しようとする正確な目標を提供する。
しかし、タスクを実行する前に目標の設定を知ることは現実的ではないことが多い。
よりスケーラブルなフレームワークによって、エージェントに類似したタスクの例を提供し、エージェントに現在の状態に対する目標を推測させることができます。
我々は,機能的等分散を捉え,新たな目標を達成するためのスキルの再利用を可能にする,goal-conditioned bisimulationと呼ばれる新しい状態抽象化を提案する。
この抽象化の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
さらに,この学習表現は,ゴール条件付きタスクだけでなく,状態のみの報酬関数によって記述される下流タスクにも適していることを示す。
ビデオはhttps://sites.google.com/view/gc-bisimulationで見ることができる。
関連論文リスト
- HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Learning user-defined sub-goals using memory editing in reinforcement
learning [0.0]
強化学習(RL)の目的は、エージェントが最終目標を達成することを可能にすることである。
本稿では,ユーザ定義のサブゴールを実現するための方法論と,メモリ編集による最終目標を提案する。
この方法論は、さまざまなシナリオでエージェントを制御する必要があるフィールドで使用できると期待しています。
論文 参考訳(メタデータ) (2022-05-01T05:19:51Z) - Learning for Visual Navigation by Imagining the Success [66.99810227193196]
我々は,成功(下位)ゴーナル状態の潜在表現を想像することを提案する。
ForeSITは、成功につながる将来の状態の繰り返しの潜在表現を想像するように訓練されています。
ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
論文 参考訳(メタデータ) (2021-02-28T10:25:46Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。