論文の概要: CQM: Curriculum Reinforcement Learning with a Quantized World Model
- arxiv url: http://arxiv.org/abs/2310.17330v1
- Date: Thu, 26 Oct 2023 11:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-27 20:39:35.578723
- Title: CQM: Curriculum Reinforcement Learning with a Quantized World Model
- Title(参考訳): cqm: 量子化世界モデルを用いたカリキュラム強化学習
- Authors: Seungjae Lee, Daesol Cho, Jonghae Park, H. Jin Kim
- Abstract要約: 本稿では,カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案する。
自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
また、エゴ中心の視覚入力においても、データ効率と性能に関する最先端のカリキュラムRL法よりも、様々な目標達成タスクにおいて優れています。
- 参考スコア(独自算出の注目度): 30.21954044028645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent curriculum Reinforcement Learning (RL) has shown notable progress in
solving complex tasks by proposing sequences of surrogate tasks. However, the
previous approaches often face challenges when they generate curriculum goals
in a high-dimensional space. Thus, they usually rely on manually specified goal
spaces. To alleviate this limitation and improve the scalability of the
curriculum, we propose a novel curriculum method that automatically defines the
semantic goal space which contains vital information for the curriculum
process, and suggests curriculum goals over it. To define the semantic goal
space, our method discretizes continuous observations via vector
quantized-variational autoencoders (VQ-VAE) and restores the temporal relations
between the discretized observations by a graph. Concurrently, ours suggests
uncertainty and temporal distance-aware curriculum goals that converges to the
final goals over the automatically composed goal space. We demonstrate that the
proposed method allows efficient explorations in an uninformed environment with
raw goal examples only. Also, ours outperforms the state-of-the-art curriculum
RL methods on data efficiency and performance, in various goal-reaching tasks
even with ego-centric visual inputs.
- Abstract(参考訳): 近年のReinforcement Learning (RL) では,サロゲートタスクのシーケンスを提案することで,複雑なタスクの解決が顕著に進んでいる。
しかし、従来のアプローチは、高次元空間でカリキュラムのゴールを生成する際にしばしば課題に直面する。
したがって、通常は手動で指定したゴールスペースに依存する。
この制限を緩和し、カリキュラムのスケーラビリティを向上させるために、カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案し、その上でカリキュラム目標を提案する。
意味的目標空間を定義するために,ベクトル量子化変分オートエンコーダ(vq-vae)による連続観測を離散化し,離散観測間の時間的関係をグラフで復元する。
同時に,自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
提案手法は,実例のみを用いた非情報環境における効率的な探索を可能にすることを実証する。
また,ego中心の視覚入力においても,データ効率と性能に関する最新のカリキュラムrl手法よりも優れています。
関連論文リスト
- CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation [29.155620517531656]
現在の強化学習(RL)は、望まれる結果や高い報奨がほとんど得られない挑戦的な探索問題の解決に苦しむことが多い。
両部マッチング問題を解くことにより,結果指向のRLに対する不確実性と時間的距離対応の目標生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も大幅に向上した。
論文 参考訳(メタデータ) (2023-01-27T14:25:04Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。