論文の概要: Uncertainty-aware Low-Rank Q-Matrix Estimation for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2111.10103v1
- Date: Fri, 19 Nov 2021 09:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 14:32:21.446062
- Title: Uncertainty-aware Low-Rank Q-Matrix Estimation for Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習のための不確実性を考慮した低ランクq行列推定
- Authors: Tong Sang, Hongyao Tang, Jianye Hao, Yan Zheng, Zhaopeng Meng
- Abstract要約: Q行列のランクの低下は、学習過程において、様々な人気アルゴリズムの連続制御タスクにまたがって広く存在していることを報告する。
本稿では,値関数の学習を容易にするためのフレームワークとして,新しい不確実性を考慮した低ランクQ行列推定(UA-LQE)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.66561270272667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value estimation is one key problem in Reinforcement Learning. Albeit many
successes have been achieved by Deep Reinforcement Learning (DRL) in different
fields, the underlying structure and learning dynamics of value function,
especially with complex function approximation, are not fully understood. In
this paper, we report that decreasing rank of $Q$-matrix widely exists during
learning process across a series of continuous control tasks for different
popular algorithms. We hypothesize that the low-rank phenomenon indicates the
common learning dynamics of $Q$-matrix from stochastic high dimensional space
to smooth low dimensional space. Moreover, we reveal a positive correlation
between value matrix rank and value estimation uncertainty. Inspired by above
evidence, we propose a novel Uncertainty-Aware Low-rank Q-matrix Estimation
(UA-LQE) algorithm as a general framework to facilitate the learning of value
function. Through quantifying the uncertainty of state-action value estimation,
we selectively erase the entries of highly uncertain values in state-action
value matrix and conduct low-rank matrix reconstruction for them to recover
their values. Such a reconstruction exploits the underlying structure of value
matrix to improve the value approximation, thus leading to a more efficient
learning process of value function. In the experiments, we evaluate the
efficacy of UA-LQE in several representative OpenAI MuJoCo continuous control
tasks.
- Abstract(参考訳): 価値の見積もりは強化学習の重要な問題のひとつです。
異なる分野の深層強化学習(drl)によって多くの成果が得られたが、価値関数の構造や学習のダイナミクス、特に複素関数近似は、完全には理解されていない。
本稿では,様々なアルゴリズムを対象とした連続制御タスクの学習過程において,$q$-matrixの低下ランクが広く存在することを報告する。
低ランク現象は確率的高次元空間から滑らかな低次元空間への$Q$-matrixの共通学習ダイナミクスを示すと仮定する。
さらに,値行列のランクと値推定の不確実性との間に正の相関関係を示す。
上記の証拠に触発されて,値関数の学習を容易にする汎用フレームワークとして,新しい不確実性を考慮した低ランクq行列推定(ua-lqe)アルゴリズムを提案する。
状態作用値推定の不確かさを定量化することにより、状態作用値行列における不確かさの高い値のエントリを選択的に消去し、それらの値の回復のために低ランク行列再構成を行う。
このような再構成は値行列の基盤構造を利用して値近似を改善し、値関数のより効率的な学習プロセスをもたらす。
実験では,OpenAI MuJoCo連続制御タスクにおけるUA-LQEの有効性を評価した。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning [1.7898305876314982]
提案アルゴリズムは,共形推論の原理に基づいて,深い明解学習と量子キャリブレーションを組み合わせる。
ミニチュア化されたアタリゲームスイート(MinAtar)でテストされる。
論文 参考訳(メタデータ) (2024-02-11T05:17:56Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。
ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。
単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文 参考訳(メタデータ) (2023-08-28T22:29:16Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - A Scalable, Adaptive and Sound Nonconvex Regularizer for Low-rank Matrix
Completion [60.52730146391456]
そこで我々は,適応的かつ音質の高い"核フロベニウスノルム"と呼ばれる新しい非スケーラブルな低ランク正規化器を提案する。
特異値の計算をバイパスし、アルゴリズムによる高速な最適化を可能にする。
既存の行列学習手法では最速でありながら、最先端の回復性能が得られる。
論文 参考訳(メタデータ) (2020-08-14T18:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。