論文の概要: Lecture Notes on Partially Known MDPs
- arxiv url: http://arxiv.org/abs/2112.02976v1
- Date: Mon, 6 Dec 2021 12:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 22:57:39.075667
- Title: Lecture Notes on Partially Known MDPs
- Title(参考訳): 部分的に知られたMDPの講義ノート
- Authors: Guillermo A. Perez
- Abstract要約: 完全には知られていないマルコフ決定プロセス(MDP)の最適ポリシーを見つける問題に取り組む。
私たちの意図は、オフライン設定からオンライン(学習)設定へゆっくりと移行することにあります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In these notes we will tackle the problem of finding optimal policies for
Markov decision processes (MDPs) which are not fully known to us. Our intention
is to slowly transition from an offline setting to an online (learning)
setting. Namely, we are moving towards reinforcement learning.
- Abstract(参考訳): これらのノートでは、マルコフ決定プロセス(MDP)の最適ポリシーを見つけるという課題に対処する。
私たちの意図は、オフライン設定からオンライン(学習)設定へゆっくりと移行することにあります。
すなわち、強化学習に向かっています。
関連論文リスト
- SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions [37.172662930947446]
命令追従型大規模言語モデル(LLM)は、個人または著作権のある情報を故意に開示する。
SNAPは,情報を選択的に学習するための革新的なフレームワークである。
我々は,NLPベンチマークにおけるフレームワークの評価を行い,提案手法が元のLLM能力を維持していることを示す。
論文 参考訳(メタデータ) (2024-06-18T06:54:05Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Dynamic Regret of Online Markov Decision Processes [84.20723936192945]
オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。
オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
論文 参考訳(メタデータ) (2022-08-26T07:42:53Z) - Multi-objective Optimization of Notifications Using Offline
Reinforcement Learning [1.2303635283131926]
我々はマルコフ決定過程として準リアルタイム通知決定問題を定式化する。
逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T00:53:08Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Online Learning in Adversarial MDPs: Is the Communicating Case Harder
than Ergodic? [30.533991006187865]
我々は、後述の最良の固定決定論ポリシーに関して、$O(sqrtT)$を後悔するアルゴリズムを与える。
また、MDPの通信において、$O(sqrtT)$ regretを達成する非効率なアルゴリズムも提供する。
論文 参考訳(メタデータ) (2021-11-03T05:16:48Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Efficient PAC Reinforcement Learning in Regular Decision Processes [99.02383154255833]
定期的な意思決定プロセスで強化学習を研究します。
我々の主な貢献は、最適に近いポリシーをパラメータのセットで時間内にPACを学習できることである。
論文 参考訳(メタデータ) (2021-05-14T12:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。