論文の概要: Learning Efficiently Function Approximation for Contextual MDP
- arxiv url: http://arxiv.org/abs/2203.00995v1
- Date: Wed, 2 Mar 2022 10:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 15:34:38.907798
- Title: Learning Efficiently Function Approximation for Contextual MDP
- Title(参考訳): 文脈MDPのための効率的な関数近似の学習
- Authors: Orin Levy and Yishay Mansour
- Abstract要約: 報酬と力学の両方に関数近似を用いた文脈的MDPの学習について検討する。
我々は、ダイナミクスが既知の場合と未知の場合と、ダイナミクスがコンテキストに依存したり、独立した場合の両方を考慮する。
- 参考スコア(独自算出の注目度): 46.86114958340962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study learning contextual MDPs using a function approximation for both the
rewards and the dynamics. We consider both the case where the dynamics is known
and unknown, and the case that the dynamics dependent or independent of the
context. For all four models we derive polynomial sample and time complexity
(assuming an efficient ERM oracle). Our methodology gives a general reduction
from learning contextual MDP to supervised learning.
- Abstract(参考訳): 報酬と力学の両方に関数近似を用いた文脈的MDPの学習について検討する。
我々は、ダイナミクスが知られ、未知である場合と、ダイナミクスがコンテキストに依存し、あるいは独立している場合の両方を考える。
4つのモデル全てに対して、多項式サンプルと時間複雑性(効率的なERMオラクルを仮定する)を導出する。
我々の手法は、文脈的MDPから教師あり学習への一般化をもたらす。
関連論文リスト
- LLMR: Knowledge Distillation with a Large Language Model-Induced Reward [24.455147056857356]
大規模言語モデルは、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを示すようになった。
しかし、これらのモデルは一般的に計算コストが高く、資源制約のある環境では展開が困難である。
大規模言語モデルから誘導される報酬関数に基づく新しい知識蒸留(KD)法であるLLMRを提案する。
論文 参考訳(メタデータ) (2024-09-19T06:27:58Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Reinforcement Learning with History-Dependent Dynamic Contexts [29.8131459650617]
歴史に依存した環境のための新しい強化学習フレームワークである動的文脈マルコフ決定プロセス(DCMDP)を紹介する。
本モデルでは,ロジスティックDCMDPに着目した特別事例を考察し,文脈遷移を決定するためにアグリゲーション関数を活用することにより,履歴長への指数的依存を断ち切る。
理論的な結果に触発されたロジスティックDCMDPの実用的モデルベースアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-02-04T01:58:21Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。