Fugu-MT 論文翻訳(概要): Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning

論文の概要: Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.06793v2
Date: Sat, 28 Oct 2023 03:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 19:48:50.603890
Title: Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning
Title（参考訳）: 低ランク強化学習のためのスペクトル入射行列推定
Authors: Stefan Stojanovic, Yassir Jedra, Alexandre Proutiere
Abstract要約: 低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
参考スコア（独自算出の注目度）: 53.445068584013896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study matrix estimation problems arising in reinforcement learning (RL) with low-rank structure. In low-rank bandits, the matrix to be recovered specifies the expected arm rewards, and for low-rank Markov Decision Processes (MDPs), it may for example characterize the transition kernel of the MDP. In both cases, each entry of the matrix carries important information, and we seek estimation methods with low entry-wise error. Importantly, these methods further need to accommodate for inherent correlations in the available data (e.g. for MDPs, the data consists of system trajectories). We investigate the performance of simple spectral-based matrix estimation approaches: we show that they efficiently recover the singular subspaces of the matrix and exhibit nearly-minimal entry-wise error. These new results on low-rank matrix estimation make it possible to devise reinforcement learning algorithms that fully exploit the underlying low-rank structure. We provide two examples of such algorithms: a regret minimization algorithm for low-rank bandit problems, and a best policy identification algorithm for reward-free RL in low-rank MDPs. Both algorithms yield state-of-the-art performance guarantees.
Abstract（参考訳）: 低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。いずれの場合も,行列の各エントリは重要な情報を持ち,入力誤りの少ない推定方法を模索する。重要なことに、これらの手法は利用可能なデータ(例えば、MDPでは、データはシステムトラジェクトリから構成される)に固有の相関に適合する必要がある。簡単なスペクトルベースの行列推定手法の性能について検討し、行列の特異部分空間を効率よく回収し、ほぼ最小の入力誤差を示すことを示した。低ランク行列推定におけるこれらの新しい結果は、下層の低ランク構造を完全に活用する強化学習アルゴリズムを考案することができる。低ランク帯域問題に対する後悔最小化アルゴリズムと、低ランクMPPにおける報酬なしRLのための最良のポリシー識別アルゴリズムの2つの例を提供する。どちらのアルゴリズムも最先端のパフォーマンス保証を提供する。

関連論文リスト

Matrix Completion via Residual Spectral Matching [2.677354612516629]
ノイズ行列の完成は、レコメンデーションシステム、信号処理、画像復元などへの応用により、大きな注目を集めている。本稿では,残差の数値的および位置的情報を含む新しい残差スペクトルマッチング基準を提案する。スパースランダム行列のスペクトル特性を解析し,低ランク摂動と部分観測の影響を限定することによって,最適統計特性を導出する。
論文参考訳（メタデータ） (2024-12-13T09:42:42Z)
Tailed Low-Rank Matrix Factorization for Similarity Matrix Completion [14.542166904874147]
similarity Completion Matrixは多くの機械学習タスクの中核にある基本的なツールとして機能する。この問題に対処するために、類似行列理論(SMC)法が提案されているが、それらは複雑である。提案手法は,PSD特性を解析して推定プロセスを導出し,低ランク解を保証するために非低ランク正規化器を組み込む2つの新しい,スケーラブルで効果的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-29T04:27:23Z)
Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A) 行列を低主行列とスパース主行列の和に分解する。
論文参考訳（メタデータ） (2023-07-12T03:48:26Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
Weighted Low Rank Matrix Approximation and Acceleration [0.5177947445379687]
低ランク行列近似は機械学習における中心的な概念の1つである。低ランク行列補完(LRMC)は、いくつかの観測が欠落しているときにLRMA問題を解く。重み付き問題を解くアルゴリズムと2つの加速手法を提案する。
論文参考訳（メタデータ） (2021-09-22T22:03:48Z)
Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文参考訳（メタデータ） (2020-12-29T04:08:38Z)
Learning Mixtures of Low-Rank Models [89.39877968115833]
低ランクモデルの計算混合を学習する問題について検討する。ほぼ最適サンプルを用いて未知の行列を復元することが保証されるアルゴリズムを開発する。さらに,提案アルゴリズムはランダムノイズに対して確実に安定である。
論文参考訳（メタデータ） (2020-09-23T17:53:48Z)
Robust Low-rank Matrix Completion via an Alternating Manifold Proximal Gradient Continuation Method [47.80060761046752]
ロバスト低ランク行列補完(RMC)は、コンピュータビジョン、信号処理、機械学習アプリケーションのために広く研究されている。この問題は、部分的に観察された行列を低ランク行列とスパース行列の重ね合わせに分解することを目的とした。 RMCに取り組むために広く用いられるアプローチは、低ランク行列の核ノルム(低ランク性を促進するために)とスパース行列のl1ノルム(空間性を促進するために)を最小化する凸定式化を考えることである。本稿では、近年のローワークの動機付けについて述べる。
論文参考訳（メタデータ） (2020-08-18T04:46:22Z)
Simplex-Structured Matrix Factorization: Sparsity-based Identifiability and Provably Correct Algorithms [21.737226432466496]
単純なx構造行列因数分解に対する識別可能性を保証する新しいアルゴリズムを提案する。本稿では,合成データセットとハイパースペクトル画像に対するアプローチの有効性について述べる。
論文参考訳（メタデータ） (2020-07-22T14:01:58Z)
Robust Matrix Completion with Mixed Data Types [0.0]
我々は,データ型が混在する部分的なエントリを持つ構造的低ランク行列を復元する問題を考察する。ほとんどのアプローチは、基礎となる分布は1つしかないと仮定し、低階の制約は、行列 Satten Norm によって正則化される。本稿では, 並列化に適したアルゴリズムフレームワークとともに, 高い回復保証を有する計算可能な統計手法を提案し, 混合データ型に対する部分的に観測されたエントリを持つ低階行列を1ステップで復元する。
論文参考訳（メタデータ） (2020-05-25T21:35:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。