論文の概要: Hierarchical Representation Learning for Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2106.01655v1
- Date: Thu, 3 Jun 2021 07:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 23:15:01.082321
- Title: Hierarchical Representation Learning for Markov Decision Processes
- Title(参考訳): マルコフ決定過程の階層的表現学習
- Authors: Lorenzo Steccanella, Simone Totaro, Anders Jonsson
- Abstract要約: マルコフ決定過程の階層的表現を学習するための新しい手法を提案する。
我々の手法は状態空間をサブセットに分割することで機能し、パーティション間の遷移を実行するためのサブタスクを定義する。
本手法は,ナビゲーション領域において有用な階層表現をうまく学習できることを示し,実証的に検証する。
- 参考スコア(独自算出の注目度): 9.904746542801837
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper we present a novel method for learning hierarchical
representations of Markov decision processes. Our method works by partitioning
the state space into subsets, and defines subtasks for performing transitions
between the partitions. We formulate the problem of partitioning the state
space as an optimization problem that can be solved using gradient descent
given a set of sampled trajectories, making our method suitable for
high-dimensional problems with large state spaces. We empirically validate the
method, by showing that it can successfully learn a useful hierarchical
representation in a navigation domain. Once learned, the hierarchical
representation can be used to solve different tasks in the given domain, thus
generalizing knowledge across tasks.
- Abstract(参考訳): 本稿ではマルコフ決定過程の階層的表現を学習するための新しい手法を提案する。
我々の手法は状態空間をサブセットに分割し、パーティション間の遷移を実行するためのサブタスクを定義する。
サンプル軌道の集合から勾配勾配を用いて解ける最適化問題として状態空間を分割する問題を定式化し, 大規模状態空間を持つ高次元問題に適合する手法を提案する。
本手法は,ナビゲーション領域において有用な階層表現をうまく学習できることを示し,実証的に検証する。
学習すると、階層表現は与えられたドメイン内の異なるタスクを解決するために使用され、タスク間の知識を一般化することができる。
関連論文リスト
- Hierarchical Average-Reward Linearly-solvable Markov Decision Processes [11.69049916139847]
線形解決可能なマルコフ決定過程に対する階層的強化学習のための新しいアプローチを提案する。
提案手法では,低レベルのタスクに制限を加えることなく,低レベルのタスクと高レベルのタスクを同時に学習することができる。
実験により,本手法は1桁ないし数桁の平坦な平均逆強化学習より優れることが示された。
論文 参考訳(メタデータ) (2024-07-09T09:06:44Z) - Ideal Abstractions for Decision-Focused Learning [108.15241246054515]
本稿では,決定関連情報の損失を最小限に抑えるために,出力空間を自動的に構成する手法を提案する。
本手法は,ディープニューラルネットワークトレーニングのためのデータ取得と,閉ループ山火事管理タスクの2つの領域で実証する。
論文 参考訳(メタデータ) (2023-03-29T23:31:32Z) - Object Representations as Fixed Points: Training Iterative Refinement
Algorithms with Implicit Differentiation [88.14365009076907]
反復的洗練は表現学習に有用なパラダイムである。
トレーニングの安定性とトラクタビリティを向上させる暗黙の差別化アプローチを開発する。
論文 参考訳(メタデータ) (2022-07-02T10:00:35Z) - Supervised learning of sheared distributions using linearized optimal
transport [64.53761005509386]
本稿では,確率測度空間における教師付き学習課題について検討する。
最適輸送フレームワークを用いて確率測度の空間を$L2$空間に埋め込むことでこの問題に対処する。
正規の機械学習技術は線形分離性を達成するために使われる。
論文 参考訳(メタデータ) (2022-01-25T19:19:59Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Context-Specific Representation Abstraction for Deep Option Learning [43.68681795014662]
我々は、Deep Option Learning(CRADOL)のためのコンテキスト特化表現抽象化を導入する。
CRADOLは、時間的抽象化とコンテキスト固有の表現抽象化の両方を考慮し、ポリシー空間上の検索のサイズを効果的に削減する新しいフレームワークである。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
論文 参考訳(メタデータ) (2021-09-20T22:50:01Z) - Globally Optimal Hierarchical Reinforcement Learning for
Linearly-Solvable Markov Decision Processes [0.0]
線形解決可能なマルコフ決定過程に対する階層的強化学習のための新しい手法を提案する。
いくつかの抽象化レベルにおける値関数を表現し、サブタスクの構成性を用いて各パーティションにおける状態の最適値を推定する。
論文 参考訳(メタデータ) (2021-06-29T13:10:08Z) - Machine learning the real discriminant locus [13.63199518246153]
本稿では、機械学習における教師付き分類問題として、実判別軌跡の配置について考察する。
各サンプル点において、ホモトピー連続体は対応する系に対する実解の数を得るために用いられる。
実微分軌跡を学習した応用の1つは、実解経路のみを追跡する真のホモトピー法を開発することである。
論文 参考訳(メタデータ) (2020-06-24T22:18:08Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z) - Learning Discrete State Abstractions With Deep Variational Inference [7.273663549650618]
状態抽象化の一種である近似バイシミュレーションを学習する手法を提案する。
我々はディープ・ニューラルエンコーダを使って状態を連続的な埋め込みにマッピングする。
我々はこれらの埋め込みを、アクション条件付き隠れマルコフモデルを用いて離散表現にマッピングする。
論文 参考訳(メタデータ) (2020-03-09T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。