論文の概要: MDP Abstraction with Successor Features
- arxiv url: http://arxiv.org/abs/2110.09196v1
- Date: Mon, 18 Oct 2021 11:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 01:10:30.318482
- Title: MDP Abstraction with Successor Features
- Title(参考訳): 継承機能付きMDP抽象化
- Authors: Dongge Han, Michael Wooldridge, Sebastian Tschiatschek
- Abstract要約: 本研究では,エージェントが状態や時間的抽象化を行う強化学習の文脈における抽象化について検討する。
本研究では,後継機能に基づく新しい抽象スキームである後継抽象化を提案する。
我々の後継抽象化は、異なる環境間で伝達可能なセマンティクスで抽象環境モデルを学習することを可能にする。
- 参考スコア(独自算出の注目度): 14.433551477386318
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Abstraction plays an important role for generalisation of knowledge and
skills, and is key to sample efficient learning and planning. For many complex
problems an abstract plan can be formed first, which is then instantiated by
filling in the necessary low-level details. Often, such abstract plans
generalize well to related new problems. We study abstraction in the context of
reinforcement learning, in which agents may perform state or temporal
abstractions. Temporal abstractions aka options represent temporally-extended
actions in the form of option policies. However, typically acquired option
policies cannot be directly transferred to new environments due to changes in
the state space or transition dynamics. Furthermore, many existing state
abstraction schemes ignore the correlation between state and temporal
abstraction. In this work, we propose successor abstraction, a novel
abstraction scheme building on successor features. This includes an algorithm
for encoding and instantiation of abstract options across different
environments, and a state abstraction mechanism based on the abstract options.
Our successor abstraction allows us to learn abstract environment models with
semantics that are transferable across different environments through encoding
and instantiation of abstract options. Empirically, we achieve better transfer
and improved performance on a set of benchmark tasks as compared to relevant
state of the art baselines.
- Abstract(参考訳): 抽象化は知識とスキルの一般化において重要な役割を担い、効率的な学習と計画のサンプリングの鍵となる。
多くの複雑な問題に対して、まず抽象的な計画を作り、次に必要な低レベルの詳細を埋めてインスタンス化する。
このような抽象的な計画は、しばしば関連する新しい問題によく当てはまる。
我々は,エージェントが状態または時間的抽象化を行う強化学習の文脈で抽象について研究する。
時間的抽象化 オプションは、オプションポリシーの形式で時間的に拡張されたアクションを表す。
しかし、一般的に取得されたオプションポリシーは、状態空間や遷移ダイナミクスの変化のため、直接新しい環境に転送することはできない。
さらに、多くの既存の状態抽象化スキームは状態と時間的抽象化の相関を無視している。
本稿では,後継機能に基づく新しい抽象化スキームである後継抽象化を提案する。
これには、さまざまな環境にまたがる抽象オプションのエンコーディングとインスタンス化のためのアルゴリズムと、抽象オプションに基づいた状態抽象化メカニズムが含まれる。
我々の後継抽象化は、抽象オプションのエンコーディングとインスタンス化によって、異なる環境間で伝達可能なセマンティクスで抽象環境モデルを学習することを可能にする。
実証的には,一連のベンチマークタスクにおいて,技術ベースラインの関連状況と比較して,よりよい転送と性能向上を実現している。
関連論文リスト
- Learning Planning Abstractions from Language [28.855381137615275]
本稿では,シーケンシャルな意思決定領域における状態と行動の抽象化を学習するためのフレームワークを提案する。
言語からの抽象化(PARL)を計画する我々のフレームワークは、言語アノテーションによる実演を利用して、象徴的で抽象的なアクション空間を自動的に発見する。
論文 参考訳(メタデータ) (2024-05-06T21:24:22Z) - How to Handle Sketch-Abstraction in Sketch-Based Image Retrieval? [120.49126407479717]
スケッチの抽象化を様々なレベルで処理できるスケッチベース画像検索フレームワークを提案する。
粒度レベルの抽象理解のために、検索モデルはすべての抽象レベルを等しく扱ってはならないと規定する。
私たちのAcc.@qの損失は、評価がいかに厳格であるかという点で、スケッチが焦点を絞りたり壊したりできます。
論文 参考訳(メタデータ) (2024-03-11T23:08:29Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。
本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:11:23Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Learning Abstract and Transferable Representations for Planning [25.63560394067908]
本稿では,エージェントの環境状態の抽象化を自律的に学習するフレームワークを提案する。
これらの抽象化はタスクに依存しないので、新しいタスクを解決するために再利用することができる。
本稿では,これらの可搬型表現と問題固有の表現を組み合わせて,特定のタスクの音響記述を生成する方法について述べる。
論文 参考訳(メタデータ) (2022-05-04T14:40:04Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。