論文の概要: Reinforcement Learning with History-Dependent Dynamic Contexts
- arxiv url: http://arxiv.org/abs/2302.02061v1
- Date: Sat, 4 Feb 2023 01:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:33:34.421456
- Title: Reinforcement Learning with History-Dependent Dynamic Contexts
- Title(参考訳): 履歴依存型動的文脈を用いた強化学習
- Authors: Guy Tennenholtz, Nadav Merlis, Lior Shani, Martin Mladenov, Craig
Boutilier
- Abstract要約: 歴史に依存した環境のための新しい強化学習フレームワークである動的文脈マルコフ決定プロセス(DCMDP)を紹介する。
本モデルでは,ロジスティックDCMDPに着目した特別事例を考察し,文脈遷移を決定するためにアグリゲーション関数を活用することにより,履歴長への指数的依存を断ち切る。
理論的な結果に触発されたロジスティックDCMDPの実用的モデルベースアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 29.8131459650617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Dynamic Contextual Markov Decision Processes (DCMDPs), a novel
reinforcement learning framework for history-dependent environments that
generalizes the contextual MDP framework to handle non-Markov environments,
where contexts change over time. We consider special cases of the model, with a
focus on logistic DCMDPs, which break the exponential dependence on history
length by leveraging aggregation functions to determine context transitions.
This special structure allows us to derive an upper-confidence-bound style
algorithm for which we establish regret bounds. Motivated by our theoretical
results, we introduce a practical model-based algorithm for logistic DCMDPs
that plans in a latent space and uses optimism over history-dependent features.
We demonstrate the efficacy of our approach on a recommendation task (using
MovieLens data) where user behavior dynamics evolve in response to
recommendations.
- Abstract(参考訳): 動的文脈マルコフ決定プロセス(dcmdps)は、文脈が時間とともに変化する非マルコフ環境を扱うためにコンテキスト境界mdpフレームワークを一般化した、歴史依存環境のための新しい強化学習フレームワークである。
本モデルでは,文脈遷移を決定するためにアグリゲーション関数を活用し,履歴長に対する指数関数依存を破るロジスティックdcmdpsに着目した特別ケースを検討する。
この特別な構造により、後悔の限界を定めている上位信頼境界型アルゴリズムを導出することができる。
この理論結果に動機づけられ,潜在空間に計画し,歴史依存的特徴よりも楽観的手法を用いたロジスティックdcmdpsのための実用的なモデルベースアルゴリズムを提案する。
提案手法の有効性を,レコメンデーションに応じてユーザ動作のダイナミクスが進化するレコメンデーションタスク(MovieLensデータを用いた)に示す。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - On learning history based policies for controlling Markov decision
processes [44.17941122294582]
本稿では,MDPの制御を学習するRLアルゴリズムの動作を研究するための理論的枠組みを提案する。
本研究では,一連の連続制御タスクにおいて,その効果を数値的に評価する。
論文 参考訳(メタデータ) (2022-11-06T02:47:55Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions:
from Models to Offline Evaluation [41.21447375318793]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。