論文の概要: Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.15829v1
- Date: Fri, 24 May 2024 02:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:29:48.163279
- Title: Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための時空間意味論に基づく抽象化
- Authors: Jihui Nie, Dehui Du, Jiangnan Zhao,
- Abstract要約: Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
- 参考スコア(独自算出の注目度): 1.4542411354617986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent Cyber-Physical Systems (ICPS) represent a specialized form of Cyber-Physical System (CPS) that incorporates intelligent components, notably Convolutional Neural Networks (CNNs) and Deep Reinforcement Learning (DRL), to undertake multifaceted tasks encompassing perception, decision-making, and control. The utilization of DRL for decision-making facilitates dynamic interaction with the environment, generating control actions aimed at maximizing cumulative rewards. Nevertheless, the inherent uncertainty of the operational environment and the intricate nature of ICPS necessitate exploration within complex and dynamic state spaces during the learning phase. DRL confronts challenges in terms of efficiency, generalization capabilities, and data scarcity during decision-making process. In response to these challenges, we propose an innovative abstract modeling approach grounded in spatial-temporal value semantics, capturing the evolution in the distribution of semantic value across time and space. A semantics-based abstraction is introduced to construct an abstract Markov Decision Process (MDP) for the DRL learning process. Furthermore, optimization techniques for abstraction are delineated, aiming to refine the abstract model and mitigate semantic gaps between abstract and concrete states. The efficacy of the abstract modeling is assessed through the evaluation and analysis of the abstract MDP model using PRISM. A series of experiments are conducted, involving diverse scenarios such as lane-keeping, adaptive cruise control, and intersection crossroad assistance, to demonstrate the effectiveness of our abstracting approach.
- Abstract(参考訳): Intelligent Cyber-Physical Systems (ICPS)は、インテリジェントなコンポーネント、特に畳み込みニューラルネットワーク(CNN)とDeep Reinforcement Learning (DRL)を組み込んだCPS(Cyber-Physical System)の特殊な形態を表現し、知覚、意思決定、制御を含む多面的なタスクを実行する。
意思決定におけるDRLの利用は環境との動的相互作用を促進し、累積報酬の最大化を目的とした制御行動を生成する。
それにもかかわらず、ICPSの運用環境の固有の不確実性と複雑な性質は、学習期間中に複雑な状態空間と動的状態空間内での探索を必要とする。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
これらの課題に対応するために,時空間値意味論に基づく革新的な抽象的モデリング手法を提案し,時間と空間における意味値の分布の進化を捉えた。
DRL学習プロセスのための抽象マルコフ決定プロセス(MDP)を構築するためにセマンティクスに基づく抽象化を導入する。
さらに,抽象モデルの改良と,抽象状態と具体的状態のセマンティックギャップの緩和を目的として,抽象化のための最適化手法を導出する。
PRISMを用いた抽象MDPモデルの評価と解析により、抽象モデリングの有効性を評価する。
抽象化手法の有効性を実証するために,車線維持,適応型クルーズ制御,交差点横断支援などの多様なシナリオを含む一連の実験を行った。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Localized Observation Abstraction Using Piecewise Linear Spatial Decay for Reinforcement Learning in Combat Simulations [0.0]
本稿では,一方向線形空間減衰を用いた局所的な観測抽象化手法を提案する。
この技術は状態空間を単純化し、重要な情報を保持しながら計算要求を減らす。
分析の結果,この局所的な観測アプローチは,シナリオの複雑さが増大する中で,従来型のグローバルな観測手法よりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-23T18:26:10Z) - Learning Abstract World Model for Value-preserving Planning with Options [11.254212901595523]
所与の時間的拡張行動の構造を利用して抽象マルコフ決定過程(MDP)を学習する。
我々は、これらのスキルによる計画が、抽象MDPにおける軌跡をシミュレートすることによって、元のMDPにおける有界値損失のポリシーをもたらすことを確実にするために必要な状態抽象化を特徴付ける。
目標をベースとしたナビゲーション環境では,連続的な抽象状態の計画が成功し,抽象モデル学習が計画と学習のサンプル効率を向上させることを示す。
論文 参考訳(メタデータ) (2024-06-22T13:41:02Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。