論文の概要: Discrete State-Action Abstraction via the Successor Representation
- arxiv url: http://arxiv.org/abs/2206.03467v1
- Date: Tue, 7 Jun 2022 17:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:50:34.521472
- Title: Discrete State-Action Abstraction via the Successor Representation
- Title(参考訳): 後継表現による離散状態動作抽象化
- Authors: Amnon Attali, Pedro Cisneros-Velarde, Marco Morales, Nancy M. Amato
- Abstract要約: 抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
- 参考スコア(独自算出の注目度): 3.453310639983932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When reinforcement learning is applied with sparse rewards, agents must spend
a prohibitively long time exploring the unknown environment without any
learning signal. Abstraction is one approach that provides the agent with an
intrinsic reward for transitioning in a latent space. Prior work focuses on
dense continuous latent spaces, or requires the user to manually provide the
representation. Our approach is the first for automatically learning a discrete
abstraction of the underlying environment. Moreover, our method works on
arbitrary input spaces, using an end-to-end trainable regularized successor
representation model. For transitions between abstract states, we train a set
of temporally extended actions in the form of options, i.e., an action
abstraction. Our proposed algorithm, Discrete State-Action Abstraction (DSAA),
iteratively swaps between training these options and using them to efficiently
explore more of the environment to improve the state abstraction. As a result,
our model is not only useful for transfer learning but also in the online
learning setting. We empirically show that our agent is able to explore the
environment and solve provided tasks more efficiently than baseline
reinforcement learning algorithms. Our code is publicly available at
\url{https://github.com/amnonattali/dsaa}.
- Abstract(参考訳): 強化学習をスパース報酬に適用する場合、エージェントは学習信号なしで未知の環境を探索するのに、極めて長い時間を費やさなければならない。
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
事前の作業は、密集した連続的潜在空間にフォーカスするか、手動で表現を提供する必要がある。
私たちのアプローチは、基盤となる環境の個別の抽象化を自動的に学習する最初の方法です。
さらに、この手法は、エンドツーエンドのトレーニング可能な正規化後継表現モデルを用いて任意の入力空間で動作する。
抽象状態間の遷移のために、オプション、すなわちアクション抽象化の形式で時間的に拡張された一連のアクションを訓練する。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングを反復的に置き換えて,環境をより効率的に探索し,状態抽象化を改善する。
その結果,本モデルは転校学習だけでなく,オンライン学習環境においても有用であることがわかった。
エージェントが環境を探索し,与えられたタスクをベースライン強化学習アルゴリズムよりも効率的に解決できることを実証的に示す。
我々のコードは \url{https://github.com/amnonattali/dsaa} で公開されている。
関連論文リスト
- PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learning Abstract and Transferable Representations for Planning [25.63560394067908]
本稿では,エージェントの環境状態の抽象化を自律的に学習するフレームワークを提案する。
これらの抽象化はタスクに依存しないので、新しいタスクを解決するために再利用することができる。
本稿では,これらの可搬型表現と問題固有の表現を組み合わせて,特定のタスクの音響記述を生成する方法について述べる。
論文 参考訳(メタデータ) (2022-05-04T14:40:04Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - MDP Abstraction with Successor Features [14.433551477386318]
本研究では,エージェントが状態や時間的抽象化を行う強化学習の文脈における抽象化について検討する。
本研究では,後継機能に基づく新しい抽象スキームである後継抽象化を提案する。
我々の後継抽象化は、異なる環境間で伝達可能なセマンティクスで抽象環境モデルを学習することを可能にする。
論文 参考訳(メタデータ) (2021-10-18T11:35:08Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Learning Discrete State Abstractions With Deep Variational Inference [7.273663549650618]
状態抽象化の一種である近似バイシミュレーションを学習する手法を提案する。
我々はディープ・ニューラルエンコーダを使って状態を連続的な埋め込みにマッピングする。
我々はこれらの埋め込みを、アクション条件付き隠れマルコフモデルを用いて離散表現にマッピングする。
論文 参考訳(メタデータ) (2020-03-09T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。