論文の概要: Sample Complexity Characterization for Linear Contextual MDPs
- arxiv url: http://arxiv.org/abs/2402.02700v1
- Date: Mon, 5 Feb 2024 03:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:59:55.725398
- Title: Sample Complexity Characterization for Linear Contextual MDPs
- Title(参考訳): 線形文脈 MDP のサンプル複素性評価
- Authors: Junze Deng, Yuan Cheng, Shaofeng Zou and Yingbin Liang
- Abstract要約: 文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
- 参考スコア(独自算出の注目度): 67.79455646673762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual Markov decision processes (CMDPs) describe a class of
reinforcement learning problems in which the transition kernels and reward
functions can change over time with different MDPs indexed by a context
variable. While CMDPs serve as an important framework to model many real-world
applications with time-varying environments, they are largely unexplored from
theoretical perspective. In this paper, we study CMDPs under two linear
function approximation models: Model I with context-varying representations and
common linear weights for all contexts; and Model II with common
representations for all contexts and context-varying linear weights. For both
models, we propose novel model-based algorithms and show that they enjoy
guaranteed $\epsilon$-suboptimality gap with desired polynomial sample
complexity. In particular, instantiating our result for the first model to the
tabular CMDP improves the existing result by removing the reachability
assumption. Our result for the second model is the first-known result for such
a type of function approximation models. Comparison between our results for the
two models further indicates that having context-varying features leads to much
better sample efficiency than having common representations for all contexts
under linear CMDPs.
- Abstract(参考訳): 文脈マルコフ決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
cmdpは、多くの実世界のアプリケーションを時間変動環境でモデル化するための重要なフレームワークとして機能するが、理論的な見地からはほとんど探索されない。
本稿では,CMDPを2つの線形関数近似モデル(文脈変化表現とすべての文脈に対する共通線形重み付きモデルI)と,すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIについて検討する。
いずれのモデルにおいても,新しいモデルベースアルゴリズムを提案し,所望の多項式サンプル複雑性を持つ$\epsilon$-suboptimality gap を満足できることを示す。
特に,最初のモデルから表型cmdpへの結果のインスタンス化は,到達可能性の仮定を取り除いて既存の結果を改善する。
2つ目のモデルに対する結果は、このような関数近似モデルで最初に知られた結果である。
さらに,2つのモデルの比較結果から,文脈変化の特徴を持つ場合,線形CMDPの下でのすべてのコンテキストに対する共通表現よりも,より優れたサンプル効率が得られることが示された。
関連論文リスト
- Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - PSD Representations for Effective Probability Models [117.35298398434628]
最近提案された非負関数に対する正半定値(PSD)モデルがこの目的に特に適していることを示す。
我々はPSDモデルの近似と一般化能力の両方を特徴付け、それらが強い理論的保証を享受していることを示す。
本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。
論文 参考訳(メタデータ) (2021-06-30T15:13:39Z) - Collaborative Nonstationary Multivariate Gaussian Process Model [2.362467745272567]
我々は、協調非定常ガウス過程モデル(CNMGP)と呼ばれる新しいモデルを提案する。
CNMGPは、出力が共通の入力セットを共有していないデータを、入力と出力のサイズに依存しない計算複雑性でモデル化することができる。
また,本モデルでは,出力毎に異なる時間変化相関を推定し,予測性能の向上を図っている。
論文 参考訳(メタデータ) (2021-06-01T18:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。