論文の概要: Understanding Hindsight Goal Relabeling Requires Rethinking Divergence
Minimization
- arxiv url: http://arxiv.org/abs/2209.13046v1
- Date: Mon, 26 Sep 2022 22:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 14:50:55.918875
- Title: Understanding Hindsight Goal Relabeling Requires Rethinking Divergence
Minimization
- Title(参考訳): 多様性の最小化を再考する直近のゴールリラベルを理解する
- Authors: Lunjun Zhang, Bradly C. Stadie
- Abstract要約: マルチゴール強化学習(RL)の基礎技術として,隠れたゴールレバーベリングが注目されている。
そこで本研究では,このような関係を説明する目標達成のための統一的な目標を策定する。
近年のゴール条件付き行動クローニングの進歩にもかかわらず、マルチゴールQ-ラーニングは依然としてBCライクな手法より優れていることが判明した。
- 参考スコア(独自算出の注目度): 10.854471763126117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hindsight goal relabeling has become a foundational technique for multi-goal
reinforcement learning (RL). The idea is quite simple: any arbitrary trajectory
can be seen as an expert demonstration for reaching the trajectory's end state.
Intuitively, this procedure trains a goal-conditioned policy to imitate a
sub-optimal expert. However, this connection between imitation and hindsight
relabeling is not well understood. Modern imitation learning algorithms are
described in the language of divergence minimization, and yet it remains an
open problem how to recast hindsight goal relabeling into that framework. In
this work, we develop a unified objective for goal-reaching that explains such
a connection, from which we can derive goal-conditioned supervised learning
(GCSL) and the reward function in hindsight experience replay (HER) from first
principles. Experimentally, we find that despite recent advances in
goal-conditioned behaviour cloning (BC), multi-goal Q-learning can still
outperform BC-like methods; moreover, a vanilla combination of both actually
hurts model performance. Under our framework, we study when BC is expected to
help, and empirically validate our findings. Our work further bridges
goal-reaching and generative modeling, illustrating the nuances and new
pathways of extending the success of generative models to RL.
- Abstract(参考訳): 後視目標relabelingはマルチゴール強化学習(rl)の基礎的手法となっている。
任意の軌道は、軌道の終了状態に到達するための専門家のデモンストレーションと見なすことができる。
直感的には、この手順は準最適専門家を模倣するために目標条件の政策を訓練する。
しかし、模倣と後見のレラベルの関係はよく分かっていない。
現代の模倣学習アルゴリズムは、分散化の言語で説明されているが、後見目標をそのフレームワークに組み込む方法については、未解決の問題である。
本研究は、ゴール条件付き教師付き学習(GCSL)と、後見経験リプレイ(HER)における報酬関数を第一原理から導出できるようなコネを説明する、ゴール取得のための統一的な目的を開発する。
目的条件付き行動クローニング(BC)の最近の進歩にもかかわらず、マルチゴールQ-ラーニングはBCライクな手法よりも優れており、バニラの組み合わせはモデルの性能を実際に損なう。
われわれのフレームワークでは,BCがいつ役に立つかを調査し,その結果を実証的に検証する。
我々の研究は、目標達成と生成モデリングをさらに橋渡しし、生成モデルの成功をRLに拡張するためのニュアンスと新しい経路を描き出す。
関連論文リスト
- Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
近年、拡散モデルはGANの非敵対的な代替品として出現している。
提案手法は, 様々な連続制御問題に対して, GANスタイルの模倣学習ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Zero-Shot Offline Imitation Learning via Optimal Transport [21.548195072895517]
ゼロショットの模倣学習アルゴリズムは、テスト時にたった1つのデモから、目に見えない振る舞いを再現する。
既存の実践的なアプローチでは、専門家のデモンストレーションを一連の目標と見なし、ハイレベルなゴールセレクタと低レベルなゴール条件のポリシーで模倣を可能にする。
そこで本研究では,模倣学習に固有の占領目標を直接最適化することにより,この問題を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:10:51Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based
RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。
アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文 参考訳(メタデータ) (2021-03-24T15:33:03Z) - Understanding the Mechanics of SPIGOT: Surrogate Gradients for Latent
Structure Learning [20.506232306308977]
潜在構造モデルは、言語データをモデリングするための強力なツールである。
これらのモデルのエンドツーエンドトレーニングの課題の1つは、ヌル勾配を持つargmax演算である。
下流学習目標を引き上げる角度から潜在構造学習を探索する。
論文 参考訳(メタデータ) (2020-10-05T21:56:00Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。