論文の概要: Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.06793v2
- Date: Sat, 28 Oct 2023 03:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:48:50.603890
- Title: Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning
- Title(参考訳): 低ランク強化学習のためのスペクトル入射行列推定
- Authors: Stefan Stojanovic, Yassir Jedra, Alexandre Proutiere
- Abstract要約: 低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
- 参考スコア(独自算出の注目度): 53.445068584013896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study matrix estimation problems arising in reinforcement learning (RL)
with low-rank structure. In low-rank bandits, the matrix to be recovered
specifies the expected arm rewards, and for low-rank Markov Decision Processes
(MDPs), it may for example characterize the transition kernel of the MDP. In
both cases, each entry of the matrix carries important information, and we seek
estimation methods with low entry-wise error. Importantly, these methods
further need to accommodate for inherent correlations in the available data
(e.g. for MDPs, the data consists of system trajectories). We investigate the
performance of simple spectral-based matrix estimation approaches: we show that
they efficiently recover the singular subspaces of the matrix and exhibit
nearly-minimal entry-wise error. These new results on low-rank matrix
estimation make it possible to devise reinforcement learning algorithms that
fully exploit the underlying low-rank structure. We provide two examples of
such algorithms: a regret minimization algorithm for low-rank bandit problems,
and a best policy identification algorithm for reward-free RL in low-rank MDPs.
Both algorithms yield state-of-the-art performance guarantees.
- Abstract(参考訳): 低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
いずれの場合も,行列の各エントリは重要な情報を持ち,入力誤りの少ない推定方法を模索する。
重要なことに、これらの手法は利用可能なデータ(例えば、MDPでは、データはシステムトラジェクトリから構成される)に固有の相関に適合する必要がある。
簡単なスペクトルベースの行列推定手法の性能について検討し、行列の特異部分空間を効率よく回収し、ほぼ最小の入力誤差を示すことを示した。
低ランク行列推定におけるこれらの新しい結果は、下層の低ランク構造を完全に活用する強化学習アルゴリズムを考案することができる。
低ランク帯域問題に対する後悔最小化アルゴリズムと、低ランクMPPにおける報酬なしRLのための最良のポリシー識別アルゴリズムの2つの例を提供する。
どちらのアルゴリズムも最先端のパフォーマンス保証を提供する。
関連論文リスト
- Tailed Low-Rank Matrix Factorization for Similarity Matrix Completion [14.542166904874147]
similarity Completion Matrixは多くの機械学習タスクの中核にある基本的なツールとして機能する。
この問題に対処するために、類似行列理論(SMC)法が提案されているが、それらは複雑である。
提案手法は,PSD特性を解析して推定プロセスを導出し,低ランク解を保証するために非低ランク正規化器を組み込む2つの新しい,スケーラブルで効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-29T04:27:23Z) - Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Weighted Low Rank Matrix Approximation and Acceleration [0.5177947445379687]
低ランク行列近似は機械学習における中心的な概念の1つである。
低ランク行列補完(LRMC)は、いくつかの観測が欠落しているときにLRMA問題を解く。
重み付き問題を解くアルゴリズムと2つの加速手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T22:03:48Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Learning Mixtures of Low-Rank Models [89.39877968115833]
低ランクモデルの計算混合を学習する問題について検討する。
ほぼ最適サンプルを用いて未知の行列を復元することが保証されるアルゴリズムを開発する。
さらに,提案アルゴリズムはランダムノイズに対して確実に安定である。
論文 参考訳(メタデータ) (2020-09-23T17:53:48Z) - Robust Low-rank Matrix Completion via an Alternating Manifold Proximal
Gradient Continuation Method [47.80060761046752]
ロバスト低ランク行列補完(RMC)は、コンピュータビジョン、信号処理、機械学習アプリケーションのために広く研究されている。
この問題は、部分的に観察された行列を低ランク行列とスパース行列の重ね合わせに分解することを目的とした。
RMCに取り組むために広く用いられるアプローチは、低ランク行列の核ノルム(低ランク性を促進するために)とスパース行列のl1ノルム(空間性を促進するために)を最小化する凸定式化を考えることである。
本稿では、近年のローワークの動機付けについて述べる。
論文 参考訳(メタデータ) (2020-08-18T04:46:22Z) - Simplex-Structured Matrix Factorization: Sparsity-based Identifiability
and Provably Correct Algorithms [21.737226432466496]
単純なx構造行列因数分解に対する識別可能性を保証する新しいアルゴリズムを提案する。
本稿では,合成データセットとハイパースペクトル画像に対するアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-07-22T14:01:58Z) - Robust Matrix Completion with Mixed Data Types [0.0]
我々は,データ型が混在する部分的なエントリを持つ構造的低ランク行列を復元する問題を考察する。
ほとんどのアプローチは、基礎となる分布は1つしかないと仮定し、低階の制約は、行列 Satten Norm によって正則化される。
本稿では, 並列化に適したアルゴリズムフレームワークとともに, 高い回復保証を有する計算可能な統計手法を提案し, 混合データ型に対する部分的に観測されたエントリを持つ低階行列を1ステップで復元する。
論文 参考訳(メタデータ) (2020-05-25T21:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。