論文の概要: Reinforcement Learning with History-Dependent Dynamic Contexts
- arxiv url: http://arxiv.org/abs/2302.02061v1
- Date: Sat, 4 Feb 2023 01:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:33:34.421456
- Title: Reinforcement Learning with History-Dependent Dynamic Contexts
- Title(参考訳): 履歴依存型動的文脈を用いた強化学習
- Authors: Guy Tennenholtz, Nadav Merlis, Lior Shani, Martin Mladenov, Craig
Boutilier
- Abstract要約: 歴史に依存した環境のための新しい強化学習フレームワークである動的文脈マルコフ決定プロセス(DCMDP)を紹介する。
本モデルでは,ロジスティックDCMDPに着目した特別事例を考察し,文脈遷移を決定するためにアグリゲーション関数を活用することにより,履歴長への指数的依存を断ち切る。
理論的な結果に触発されたロジスティックDCMDPの実用的モデルベースアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 29.8131459650617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Dynamic Contextual Markov Decision Processes (DCMDPs), a novel
reinforcement learning framework for history-dependent environments that
generalizes the contextual MDP framework to handle non-Markov environments,
where contexts change over time. We consider special cases of the model, with a
focus on logistic DCMDPs, which break the exponential dependence on history
length by leveraging aggregation functions to determine context transitions.
This special structure allows us to derive an upper-confidence-bound style
algorithm for which we establish regret bounds. Motivated by our theoretical
results, we introduce a practical model-based algorithm for logistic DCMDPs
that plans in a latent space and uses optimism over history-dependent features.
We demonstrate the efficacy of our approach on a recommendation task (using
MovieLens data) where user behavior dynamics evolve in response to
recommendations.
- Abstract(参考訳): 動的文脈マルコフ決定プロセス(dcmdps)は、文脈が時間とともに変化する非マルコフ環境を扱うためにコンテキスト境界mdpフレームワークを一般化した、歴史依存環境のための新しい強化学習フレームワークである。
本モデルでは,文脈遷移を決定するためにアグリゲーション関数を活用し,履歴長に対する指数関数依存を破るロジスティックdcmdpsに着目した特別ケースを検討する。
この特別な構造により、後悔の限界を定めている上位信頼境界型アルゴリズムを導出することができる。
この理論結果に動機づけられ,潜在空間に計画し,歴史依存的特徴よりも楽観的手法を用いたロジスティックdcmdpsのための実用的なモデルベースアルゴリズムを提案する。
提案手法の有効性を,レコメンデーションに応じてユーザ動作のダイナミクスが進化するレコメンデーションタスク(MovieLensデータを用いた)に示す。
関連論文リスト
- Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - On learning history based policies for controlling Markov decision
processes [44.17941122294582]
本稿では,MDPの制御を学習するRLアルゴリズムの動作を研究するための理論的枠組みを提案する。
本研究では,一連の連続制御タスクにおいて,その効果を数値的に評価する。
論文 参考訳(メタデータ) (2022-11-06T02:47:55Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions:
from Models to Offline Evaluation [41.21447375318793]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。