論文の概要: Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.01955v1
- Date: Tue, 4 Oct 2022 23:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:07:16.439297
- Title: Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning
- Title(参考訳): サンプル効率強化学習のための動的抽象表現の学習
- Authors: Mehdi Dadvar, Rashmeet Kaur Nayyar, Siddharth Srivastava
- Abstract要約: 多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
- 参考スコア(独自算出の注目度): 22.25237742815589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world problems, the learning agent needs to learn a problem's
abstractions and solution simultaneously. However, most such abstractions need
to be designed and refined by hand for different problems and domains of
application. This paper presents a novel top-down approach for constructing
state abstractions while carrying out reinforcement learning. Starting with
state variables and a simulator, it presents a novel domain-independent
approach for dynamically computing an abstraction based on the dispersion of
Q-values in abstract states as the agent continues acting and learning.
Extensive empirical evaluation on multiple domains and problems shows that this
approach automatically learns abstractions that are finely-tuned to the
problem, yield powerful sample efficiency, and result in the RL agent
significantly outperforming existing approaches.
- Abstract(参考訳): 現実世界の多くの問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
しかし、そのような抽象化のほとんどは、異なる問題やアプリケーションのドメインに対して手動で設計、洗練する必要があります。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
状態変数とシミュレーターから始め、エージェントが行動し学習を続けるときに、抽象状態におけるq値の分散に基づく抽象化を動的に計算するための新しいドメイン独立アプローチを提案する。
複数の領域や問題に対する広範な経験的評価は、このアプローチが問題に微調整された抽象化を自動的に学習し、強力なサンプル効率をもたらし、その結果、RLエージェントが既存のアプローチを大幅に上回ることを示す。
関連論文リスト
- Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - On the Trade-off Between Efficiency and Precision of Neural Abstraction [62.046646433536104]
ニューラル抽象化は、最近、複雑な非線形力学モデルの形式近似として導入されている。
我々は形式的帰納的合成法を用いて、これらのセマンティクスを用いた動的モデルをもたらすニューラル抽象化を生成する。
論文 参考訳(メタデータ) (2023-07-28T13:22:32Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。