論文の概要: Environment Shaping in Reinforcement Learning using State Abstraction
- arxiv url: http://arxiv.org/abs/2006.13160v1
- Date: Tue, 23 Jun 2020 17:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:18:05.170824
- Title: Environment Shaping in Reinforcement Learning using State Abstraction
- Title(参考訳): 状態抽象化を用いた強化学習における環境形成
- Authors: Parameswaran Kamalaruban, Rati Devidze, Volkan Cevher, Adish Singla
- Abstract要約: 状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
- 参考スコア(独自算出の注目度): 63.444831173608605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the central challenges faced by a reinforcement learning (RL) agent is
to effectively learn a (near-)optimal policy in environments with large state
spaces having sparse and noisy feedback signals. In real-world applications, an
expert with additional domain knowledge can help in speeding up the learning
process via \emph{shaping the environment}, i.e., making the environment more
learner-friendly. A popular paradigm in literature is \emph{potential-based
reward shaping}, where the environment's reward function is augmented with
additional local rewards using a potential function. However, the applicability
of potential-based reward shaping is limited in settings where (i) the state
space is very large, and it is challenging to compute an appropriate potential
function, (ii) the feedback signals are noisy, and even with shaped rewards the
agent could be trapped in local optima, and (iii) changing the rewards alone is
not sufficient, and effective shaping requires changing the dynamics. We
address these limitations of potential-based shaping methods and propose a
novel framework of \emph{environment shaping using state abstraction}. Our key
idea is to compress the environment's large state space with noisy signals to
an abstracted space, and to use this abstraction in creating smoother and more
effective feedback signals for the agent. We study the theoretical
underpinnings of our abstraction-based environment shaping, and show that the
agent's policy learnt in the shaped environment preserves near-optimal behavior
in the original environment.
- Abstract(参考訳): 強化学習(rl)エージェントが直面する中心的な課題の1つは、大きな状態空間が狭くノイズの多いフィードバック信号を持つ環境で(ほぼ)最適ポリシーを効果的に学習することである。
現実世界のアプリケーションでは、追加のドメイン知識を持つ専門家は、環境をより学習しやすいものにするために、環境を形作ることを通して学習プロセスをスピードアップするのに役立ちます。
文学における一般的なパラダイムは「emph{potential-based reward shaping」であり、環境の報酬関数はポテンシャル関数を用いて追加の局所報酬関数で拡張される。
しかし、潜在的な報酬形成の適用性は、設定において制限される。
(i)状態空間は非常に大きく、適切なポテンシャル関数を計算することは困難である。
(二)フィードバック信号はうるさいもので、形状の報酬があっても局所的な最適性に閉じ込められうること。
(iii)報酬の変更だけでは不十分であり、効果的なシェーピングにはダイナミクスを変える必要がある。
本稿では,このようなポテンシャルベース形状の制限に対処し,状態抽象化を用いた環境形状の新たな枠組みを提案する。
我々のキーとなる考え方は、環境の大きな状態空間をノイズの多い信号で抽象された空間に圧縮し、この抽象化を用いてエージェントのよりスムーズで効果的なフィードバック信号を作成することである。
本研究は, 抽象的環境形成の理論的基盤を考察し, エージェントの方針が原環境における準最適挙動を保っていることを示す。
関連論文リスト
- Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。