論文の概要: Goal-Conditioned Q-Learning as Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2208.13298v1
- Date: Sun, 28 Aug 2022 22:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:23:46.698584
- Title: Goal-Conditioned Q-Learning as Knowledge Distillation
- Title(参考訳): 知識蒸留としてのゴールコンディションQ-Learning
- Authors: Alexander Levine, Soheil Feizi
- Abstract要約: 目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
- 参考スコア(独自算出の注目度): 136.79415677706612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications of reinforcement learning can be formalized as
goal-conditioned environments, where, in each episode, there is a "goal" that
affects the rewards obtained during that episode but does not affect the
dynamics. Various techniques have been proposed to improve performance in
goal-conditioned environments, such as automatic curriculum generation and goal
relabeling. In this work, we explore a connection between off-policy
reinforcement learning in goal-conditioned settings and knowledge distillation.
In particular: the current Q-value function and the target Q-value estimate are
both functions of the goal, and we would like to train the Q-value function to
match its target for all goals. We therefore apply Gradient-Based Attention
Transfer (Zagoruyko and Komodakis 2017), a knowledge distillation technique, to
the Q-function update. We empirically show that this can improve the
performance of goal-conditioned off-policy reinforcement learning when the
space of goals is high-dimensional. We also show that this technique can be
adapted to allow for efficient learning in the case of multiple simultaneous
sparse goals, where the agent can attain a reward by achieving any one of a
large set of objectives, all specified at test time. Finally, to provide
theoretical support, we give examples of classes of environments where (under
some assumptions) standard off-policy algorithms require at least O(d^2)
observed transitions to learn an optimal policy, while our proposed technique
requires only O(d) transitions, where d is the dimensionality of the goal and
state space.
- Abstract(参考訳): 強化学習の多くの応用はゴール条件付き環境として定式化することができ、各エピソードでは、そのエピソードで得られる報酬に影響を与えるが、ダイナミクスには影響しない「ゴール」が存在する。
自動カリキュラム生成や目標リラベル化など,目標条件環境の性能向上のための様々な手法が提案されている。
本研究では,ゴール条件設定におけるオフ・ポリティクス強化学習と知識蒸留との関係について検討する。
特に、現在のQ値関数と目標Q値推定はどちらも目標の関数であり、全ての目標に対して目標と一致するようにQ値関数を訓練したい。
そこで我々はQ関数更新に知識蒸留技術であるグラディエントベース注意伝達(Zagoruyko and Komodakis 2017)を適用した。
これは,ゴールの空間が高次元である場合,ゴール条件付きオフポリシー強化学習の性能を向上できることを実証的に示す。
また,この手法は,複数の同時スパース目標において効率的な学習を可能にするために適用可能であり,エージェントは,テスト時にすべて特定された,大きな目標セットのいずれかを達成することで報奨を得ることができる。
最後に、理論的な支援を提供するために、(いくつかの仮定の下で)標準のオフポリティクスアルゴリズムは、最適ポリシーを学ぶために少なくともO(d^2)の遷移を必要とする環境のクラスを例示し、一方、提案手法では、dが目標と状態空間の次元性であるO(d)の遷移のみを必要とする。
関連論文リスト
- CQM: Curriculum Reinforcement Learning with a Quantized World Model [30.21954044028645]
本稿では,カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案する。
自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
また、エゴ中心の視覚入力においても、データ効率と性能に関する最先端のカリキュラムRL法よりも、様々な目標達成タスクにおいて優れています。
論文 参考訳(メタデータ) (2023-10-26T11:50:58Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bilinear value networks [16.479582509493756]
両線形分解方式はデータ効率を大幅に向上させ, 分配目標への転送に優れることを示す。
シミュレーションされたFetchロボットのタスクスーツとシャドウハンドによる巧妙な操作に関する実証的証拠が提供される。
論文 参考訳(メタデータ) (2022-04-28T17:58:48Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。