論文の概要: Active Model Estimation in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2003.03297v2
- Date: Mon, 22 Jun 2020 20:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 00:55:18.650320
- Title: Active Model Estimation in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるアクティブモデル推定
- Authors: Jean Tarbouriech, Shubhanshu Shekhar, Matteo Pirotta, Mohammad
Ghavamzadeh, Alessandro Lazaric
- Abstract要約: マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
- 参考スコア(独自算出の注目度): 108.46146218973189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of efficient exploration in order to learn an accurate
model of an environment, modeled as a Markov decision process (MDP). Efficient
exploration in this problem requires the agent to identify the regions in which
estimating the model is more difficult and then exploit this knowledge to
collect more samples there. In this paper, we formalize this problem, introduce
the first algorithm to learn an $\epsilon$-accurate estimate of the dynamics,
and provide its sample complexity analysis. While this algorithm enjoys strong
guarantees in the large-sample regime, it tends to have a poor performance in
early stages of exploration. To address this issue, we propose an algorithm
that is based on maximum weighted entropy, a heuristic that stems from common
sense and our theoretical analysis. The main idea here is to cover the entire
state-action space with the weight proportional to the noise in the
transitions. Using a number of simple domains with heterogeneous noise in their
transitions, we show that our heuristic-based algorithm outperforms both our
original algorithm and the maximum entropy algorithm in the small sample
regime, while achieving similar asymptotic performance as that of the original
algorithm.
- Abstract(参考訳): 我々は,マルコフ決定過程(MDP)をモデル化した環境の正確なモデルを学ぶために,効率的な探索の問題を研究する。
この問題の効率的な探索には、モデルの推定が困難である地域を特定し、この知識を利用してより多くのサンプルを集める必要がある。
本稿では,この問題を定式化し,この力学の$\epsilon$-accurate推定を学習するための最初のアルゴリズムを導入し,その複雑性解析を行う。
このアルゴリズムは大規模なサンプル体制において強い保証を受けるが、探査の初期段階では性能が劣る傾向にある。
そこで本研究では,最大重み付きエントロピーに基づくアルゴリズムを提案する。
ここでの主なアイデアは、遷移のノイズに比例する重みで状態-作用空間全体をカバーすることである。
ヘテロジニアスノイズをもつ多くの単純領域を用いて,本アルゴリズムは,本アルゴリズムと,本アルゴリズムと類似した漸近性能を保ちながら,本アルゴリズムのアルゴリズムと最大エントロピーアルゴリズムの両方より優れていることを示す。
関連論文リスト
- Geometry-Aware Approaches for Balancing Performance and Theoretical
Guarantees in Linear Bandits [6.907555940790131]
トンプソンサンプリングとグリーディは有望な経験的性能を示したが、これは悲観的な理論的後悔の境界とは対照的である。
本研究では不確実楕円体の幾何学的特性を追跡する新しいデータ駆動手法を提案する。
ベースアルゴリズムが不十分な問題インスタンスを特定し,コース修正する。
論文 参考訳(メタデータ) (2023-06-26T17:38:45Z) - High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。
我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。
本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:29:32Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Optimal Algorithms for the Inhomogeneous Spiked Wigner Model [89.1371983413931]
不均一な問題に対する近似メッセージパッシングアルゴリズム(AMP)を導出する。
特に,情報理論の閾値よりも大きい信号と雑音の比を必要とする既知のアルゴリズムが,ランダムよりも優れた処理を行うための統計的・計算的ギャップの存在を同定する。
論文 参考訳(メタデータ) (2023-02-13T19:57:17Z) - Robust recovery for stochastic block models [16.74630355427558]
ブロックモデルのロバストバージョンにおいて、弱い回復のための効率的なアルゴリズムを開発する。
その結果,ブロックモデルにロバストさの代償はないことがわかった。
論文 参考訳(メタデータ) (2021-11-16T15:43:00Z) - A proximal-proximal majorization-minimization algorithm for nonconvex
tuning-free robust regression problems [4.261680642170457]
非回帰問題に対する PMM (proximal-proximal majorization-minimization) アルゴリズムを提案する。
提案アルゴリズムは既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-06-25T15:07:13Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。