論文の概要: On learning history based policies for controlling Markov decision
processes
- arxiv url: http://arxiv.org/abs/2211.03011v1
- Date: Sun, 6 Nov 2022 02:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:38:13.686710
- Title: On learning history based policies for controlling Markov decision
processes
- Title(参考訳): マルコフ決定過程を制御する学習履歴に基づく政策に関する研究
- Authors: Gandharv Patil, Aditya Mahajan, Doina Precup
- Abstract要約: 本稿では,MDPの制御を学習するRLアルゴリズムの動作を研究するための理論的枠組みを提案する。
本研究では,一連の連続制御タスクにおいて,その効果を数値的に評価する。
- 参考スコア(独自算出の注目度): 44.17941122294582
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcementlearning(RL)folkloresuggeststhathistory-basedfunctionapproximationmethods,suchas
recurrent neural nets or history-based state abstraction, perform better than
their memory-less counterparts, due to the fact that function approximation in
Markov decision processes (MDP) can be viewed as inducing a Partially
observable MDP. However, there has been little formal analysis of such
history-based algorithms, as most existing frameworks focus exclusively on
memory-less features. In this paper, we introduce a theoretical framework for
studying the behaviour of RL algorithms that learn to control an MDP using
history-based feature abstraction mappings. Furthermore, we use this framework
to design a practical RL algorithm and we numerically evaluate its
effectiveness on a set of continuous control tasks.
- Abstract(参考訳): 強化学習(rl)folkloresuggeststhathistory-basedfunctionapproximation methods(recurrent neural netsやhistory-based state abstractionなど)は、マルコフ決定過程(mdp)における関数近似が部分的に観察可能なmdpを誘発すると見なすことができるため、メモリレスと同等の性能を発揮する。
しかし、ほとんどの既存のフレームワークはメモリレス機能のみに重点を置いているため、このような履歴ベースのアルゴリズムの正式な分析はほとんど行われていない。
本稿では,歴史に基づく特徴抽象化マッピングを用いてMDPを制御することを学ぶRLアルゴリズムの挙動を研究するための理論的枠組みを提案する。
さらに,本フレームワークを用いて実用的なRLアルゴリズムを設計し,その有効性を連続制御タスクセット上で数値的に評価する。
関連論文リスト
- Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文 参考訳(メタデータ) (2024-03-21T03:42:39Z) - On the Markov Property of Neural Algorithmic Reasoning: Analyses and
Methods [94.72563337153268]
ForgetNetは歴史的埋め込みを使わないので、タスクのマルコフの性質と一致している。
また、G-ForgetNetを導入し、G-ForgetNetは歴史的埋め込みの選択的統合を可能にするゲーティング機構を使用している。
我々の実験はCLRS-30アルゴリズム推論ベンチマークに基づいて、ForgetNetとG-ForgetNetの両方が既存の手法よりも優れた一般化を実現することを示した。
論文 参考訳(メタデータ) (2024-03-07T22:35:22Z) - Bridging State and History Representations: Understanding Self-Predictive RL [24.772140132462468]
マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある
状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。
我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2024-01-17T00:47:43Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning with History-Dependent Dynamic Contexts [29.8131459650617]
歴史に依存した環境のための新しい強化学習フレームワークである動的文脈マルコフ決定プロセス(DCMDP)を紹介する。
本モデルでは,ロジスティックDCMDPに着目した特別事例を考察し,文脈遷移を決定するためにアグリゲーション関数を活用することにより,履歴長への指数的依存を断ち切る。
理論的な結果に触発されたロジスティックDCMDPの実用的モデルベースアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-02-04T01:58:21Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。