論文の概要: State Representation Learning for Goal-Conditioned Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2205.01965v1
- Date: Wed, 4 May 2022 09:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 21:14:43.357526
- Title: State Representation Learning for Goal-Conditioned Reinforcement
Learning
- Title(参考訳): 目標条件強化学習のための状態表現学習
- Authors: Lorenzo Steccanella, Anders Jonsson
- Abstract要約: 本稿では,報酬のないマルコフ決定過程に対する新しい状態表現を提案する。
自己監督的な方法で、組込み状態のペア間の埋め込み空間は、それらの間の遷移に必要な最小のアクション数に対応する。
我々は、この表現がどのようにしてゴール条件付きポリシーを学ぶことができるかを示す。
- 参考スコア(独自算出の注目度): 9.162936410696407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel state representation for reward-free Markov
decision processes. The idea is to learn, in a self-supervised manner, an
embedding space where distances between pairs of embedded states correspond to
the minimum number of actions needed to transition between them. Compared to
previous methods, our approach does not require any domain knowledge, learning
from offline and unlabeled data. We show how this representation can be
leveraged to learn goal-conditioned policies, providing a notion of similarity
between states and goals and a useful heuristic distance to guide planning and
reinforcement learning algorithms. Finally, we empirically validate our method
in classic control domains and multi-goal environments, demonstrating that our
method can successfully learn representations in large and/or continuous
domains.
- Abstract(参考訳): 本稿では報酬のないマルコフ決定過程に対する新しい状態表現を提案する。
この考え方は自己監督的な方法で、組込み状態のペア間の距離がそれらの間の遷移に必要な最小のアクション数に対応する埋め込み空間を学ぶことである。
従来の方法に比べ、オフラインデータやラベルなしデータから学ぶために、ドメイン知識は一切必要としません。
本稿では,この表現を,目標条件ポリシーの学習に活用し,状態と目標の類似性の概念と,計画と強化学習アルゴリズムの指導に有用なヒューリスティック距離を提供する。
最後に,従来の制御領域やマルチゴール環境において,提案手法を実証的に検証し,大規模かつ連続的な領域での表現を学習できることを実証した。
関連論文リスト
- CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Bootstrapped Representations in Reinforcement Learning [44.49675960752777]
強化学習(RL)では、状態表現は大きな状態空間や連続状態空間を扱うための鍵となる。
時間差分学習により学習した状態表現の理論的特徴について述べる。
政策評価におけるこれらの表現の有効性について述べるとともに,理論解析を用いて新しい補助学習ルールを設計する。
論文 参考訳(メタデータ) (2023-06-16T20:14:07Z) - Learn what matters: cross-domain imitation learning with task-relevant
embeddings [77.34726150561087]
自律エージェントが、異なる環境や異なるエージェントなど、異なる領域のデモンストレーションからタスクを実行することを学習する方法について検討する。
我々は、追加のデモンストレーションやさらなるドメイン知識にアクセスすることなく、クロスドメインの模倣学習を可能にするスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T21:56:58Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - MICo: Learning improved representations via sampling-based state
similarity for Markov decision processes [18.829939056796313]
マルコフ決定過程の状態空間上での新しい行動距離を示す。
我々は,この距離を深層強化学習エージェントの学習表現を効果的に形成する手段として用いることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:24:12Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - Jointly-Learned State-Action Embedding for Efficient Reinforcement
Learning [8.342863878589332]
本研究では,モデルフリーとモデルベース強化学習の側面を組み合わせた状態と動作の埋め込み学習手法を提案する。
提案手法は,大きな状態/動作空間を持つ離散/連続領域および連続領域において,最先端モデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2020-10-09T09:09:31Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Discrete State Abstractions With Deep Variational Inference [7.273663549650618]
状態抽象化の一種である近似バイシミュレーションを学習する手法を提案する。
我々はディープ・ニューラルエンコーダを使って状態を連続的な埋め込みにマッピングする。
我々はこれらの埋め込みを、アクション条件付き隠れマルコフモデルを用いて離散表現にマッピングする。
論文 参考訳(メタデータ) (2020-03-09T17:58:27Z) - Revisiting Meta-Learning as Supervised Learning [69.2067288158133]
メタラーニングと従来の教師付き学習の関連性を再考し,強化することで,原則的,統一的なフレームワークの提供を目指す。
タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。
この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。
論文 参考訳(メタデータ) (2020-02-03T06:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。