論文の概要: MICo: Learning improved representations via sampling-based state
similarity for Markov decision processes
- arxiv url: http://arxiv.org/abs/2106.08229v1
- Date: Thu, 3 Jun 2021 14:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 16:08:30.252275
- Title: MICo: Learning improved representations via sampling-based state
similarity for Markov decision processes
- Title(参考訳): MICo:マルコフ決定過程におけるサンプリングベース状態類似性による表現改善学習
- Authors: Pablo Samuel Castro and Tyler Kastner and Prakash Panangaden and Mark
Rowland
- Abstract要約: マルコフ決定過程の状態空間上での新しい行動距離を示す。
我々は,この距離を深層強化学習エージェントの学習表現を効果的に形成する手段として用いることを実証する。
- 参考スコア(独自算出の注目度): 18.829939056796313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new behavioural distance over the state space of a Markov
decision process, and demonstrate the use of this distance as an effective
means of shaping the learnt representations of deep reinforcement learning
agents. While existing notions of state similarity are typically difficult to
learn at scale due to high computational cost and lack of sample-based
algorithms, our newly-proposed distance addresses both of these issues. In
addition to providing detailed theoretical analysis, we provide empirical
evidence that learning this distance alongside the value function yields
structured and informative representations, including strong results on the
Arcade Learning Environment benchmark.
- Abstract(参考訳): 本稿では,マルコフ決定過程の状態空間上の新たな行動距離を示し,この距離を深層強化学習エージェントの学習表現を形作る効果的な手段として利用することを示す。
既存の状態類似性の概念は、高い計算コストとサンプルベースアルゴリズムの欠如により、大規模に学習することが通常難しいが、新たに提案された距離は、これらの問題の両方に対処する。
詳細な理論解析を行うことに加えて,この距離を値関数とともに学習すると,アーケード学習環境ベンチマークの強い結果を含む構造化表現と情報表現が得られるという実証的証拠を提供する。
関連論文リスト
- Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Bootstrapped Representations in Reinforcement Learning [44.49675960752777]
強化学習(RL)では、状態表現は大きな状態空間や連続状態空間を扱うための鍵となる。
時間差分学習により学習した状態表現の理論的特徴について述べる。
政策評価におけるこれらの表現の有効性について述べるとともに,理論解析を用いて新しい補助学習ルールを設計する。
論文 参考訳(メタデータ) (2023-06-16T20:14:07Z) - From Patches to Objects: Exploiting Spatial Reasoning for Better Visual
Representations [2.363388546004777]
本研究では,空間的推論に基づく新しい予備的事前学習手法を提案する。
本提案手法は,識別的自己管理手法の補助的タスクとして空間推論を導入することで,より柔軟なコントラスト学習の定式化を実現する。
論文 参考訳(メタデータ) (2023-05-21T07:46:46Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - State Representation Learning for Goal-Conditioned Reinforcement
Learning [9.162936410696407]
本稿では,報酬のないマルコフ決定過程に対する新しい状態表現を提案する。
自己監督的な方法で、組込み状態のペア間の埋め込み空間は、それらの間の遷移に必要な最小のアクション数に対応する。
我々は、この表現がどのようにしてゴール条件付きポリシーを学ぶことができるかを示す。
論文 参考訳(メタデータ) (2022-05-04T09:20:09Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。