論文の概要: Symbolic State Partitioning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.16791v2
- Date: Thu, 3 Oct 2024 14:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:20:02.642592
- Title: Symbolic State Partitioning for Reinforcement Learning
- Title(参考訳): 強化学習のための記号的状態分割
- Authors: Mohsen Ghaffari, Mahsa Varshosaz, Einar Broch Johnsen, Andrzej Wąsowski,
- Abstract要約: 優れたパーティショニングは、学習中の一般化と、事前経験のより効率的な活用を可能にする。
パーティショニングは、状態成分間の非線形関係の存在において特に有害な近似を導入する。
シンボル分割は, 環境行動に関して, 状態空間のカバレッジを向上し, 余分な報酬に対して強化学習がより優れていることを示す。
- 参考スコア(独自算出の注目度): 2.2486667277872994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tabular reinforcement learning methods cannot operate directly on continuous state spaces. One solution for this problem is to partition the state space. A good partitioning enables generalization during learning and more efficient exploitation of prior experiences. Consequently, the learning process becomes faster and produces more reliable policies. However, partitioning introduces approximation, which is particularly harmful in the presence of nonlinear relations between state components. An ideal partition should be as coarse as possible, while capturing the key structure of the state space for the given problem. This work extracts partitions from the environment dynamics by symbolic execution. We show that symbolic partitioning improves state space coverage with respect to environmental behavior and allows reinforcement learning to perform better for sparse rewards. We evaluate symbolic state space partitioning with respect to precision, scalability, learning agent performance and state space coverage for the learnt policies.
- Abstract(参考訳): タブラル強化学習法は連続状態空間上で直接動作することはできない。
この問題の解決策の1つは状態空間を分割することである。
優れたパーティショニングは、学習中の一般化と、事前経験のより効率的な活用を可能にする。
その結果、学習プロセスはより速くなり、より信頼性の高いポリシーが生み出される。
しかし、パーティショニングは、状態成分間の非線形関係の存在において特に有害な近似をもたらす。
理想的なパーティションは、与えられた問題に対する状態空間のキー構造をキャプチャしながら、可能な限り粗いものにすべきである。
この研究は、シンボリック実行によって環境力学からパーティションを抽出する。
シンボル分割は, 環境行動に関して, 状態空間のカバレッジを向上し, 余分な報酬に対して強化学習がより優れていることを示す。
我々は,学習ポリシーの精度,拡張性,学習エージェントの性能,状態空間のカバレッジに関して,シンボル的状態空間分割を評価する。
関連論文リスト
- Soft Partitioning of Latent Space for Semantic Channel Equalization [3.266331042379877]
本研究では,タスク構造が意味空間と行動空間の1対1マッピングを伴うシナリオにおける意味空間分割の役割について検討する。
本稿では, ソフトデコーダの出力を利用して, セマンティック空間の構造をより包括的に理解する分割の原子を導出するソフトな基準を提案する。
論文 参考訳(メタデータ) (2024-05-30T14:16:19Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learned spatial data partitioning [7.342228103959199]
まず,空間データ分割を学習し,データの位置に基づいて空間データのグループをコンピュータに効果的に割り当てる。
我々は、強化学習の文脈における空間データの分割を形式化し、新しい深層強化学習アルゴリズムを開発する。
提案手法は,距離結合クエリを高速化するためのパーティションを効率よく見つけ,ワークロードの実行時間を最大59.4%削減する。
論文 参考訳(メタデータ) (2023-06-08T00:42:10Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Globally Optimal Hierarchical Reinforcement Learning for
Linearly-Solvable Markov Decision Processes [0.0]
線形解決可能なマルコフ決定過程に対する階層的強化学習のための新しい手法を提案する。
いくつかの抽象化レベルにおける値関数を表現し、サブタスクの構成性を用いて各パーティションにおける状態の最適値を推定する。
論文 参考訳(メタデータ) (2021-06-29T13:10:08Z) - Hierarchical Representation Learning for Markov Decision Processes [9.904746542801837]
マルコフ決定過程の階層的表現を学習するための新しい手法を提案する。
我々の手法は状態空間をサブセットに分割することで機能し、パーティション間の遷移を実行するためのサブタスクを定義する。
本手法は,ナビゲーション領域において有用な階層表現をうまく学習できることを示し,実証的に検証する。
論文 参考訳(メタデータ) (2021-06-03T07:53:18Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Robust Large-Margin Learning in Hyperbolic Space [64.42251583239347]
ユークリッド空間ではなく双曲型で分類器を学ぶための最初の理論的保証を示す。
本研究では, 対向例の慎重な注入に頼って, 大面積超平面を効率よく学習するアルゴリズムを提案する。
双曲空間によく埋め込まれる階層的データに対して、低埋め込み次元は優れた保証を保証することを証明している。
論文 参考訳(メタデータ) (2020-04-11T19:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。