論文の概要: Approximate information state based convergence analysis of recurrent
Q-learning
- arxiv url: http://arxiv.org/abs/2306.05991v1
- Date: Fri, 9 Jun 2023 15:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:42:13.551552
- Title: Approximate information state based convergence analysis of recurrent
Q-learning
- Title(参考訳): 再帰的q-learningの近似情報状態に基づく収束解析
- Authors: Erfan Seyedsalehi, Nima Akbarzadeh, Amit Sinha, Aditya Mahajan
- Abstract要約: 部分的に観察可能な設定では、エージェントに利用可能なデータの履歴は時間とともに増加する。
本稿では,マルコフ特性の欠如にもかかわらず,繰り返しQ-ラーニング(RQL)が表の設定に収束することを示す。
時間とともにRQLの性能とAIS表現に伴う損失との間には強い相関関係があることが示されている。
- 参考スコア(独自算出の注目度): 0.7646713951724009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In spite of the large literature on reinforcement learning (RL) algorithms
for partially observable Markov decision processes (POMDPs), a complete
theoretical understanding is still lacking. In a partially observable setting,
the history of data available to the agent increases over time so most
practical algorithms either truncate the history to a finite window or compress
it using a recurrent neural network leading to an agent state that is
non-Markovian. In this paper, it is shown that in spite of the lack of the
Markov property, recurrent Q-learning (RQL) converges in the tabular setting.
Moreover, it is shown that the quality of the converged limit depends on the
quality of the representation which is quantified in terms of what is known as
an approximate information state (AIS). Based on this characterization of the
approximation error, a variant of RQL with AIS losses is presented. This
variant performs better than a strong baseline for RQL that does not use AIS
losses. It is demonstrated that there is a strong correlation between the
performance of RQL over time and the loss associated with the AIS
representation.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)のための強化学習(RL)アルゴリズムに関する多くの文献があるが、完全に理論的に理解されていない。
部分的に観察可能な設定では、エージェントが利用できるデータの履歴は時間とともに増加するため、ほとんどの実用的なアルゴリズムは、履歴を有限ウィンドウに切り詰めるか、非マルコフ的エージェント状態につながるリカレントニューラルネットワークを使用して圧縮するかのどちらかである。
本稿では,マルコフ特性の欠如にもかかわらず,繰り返しQ-ラーニング(RQL)が表の設定に収束することを示す。
さらに、収束限界の品質は、近似情報状態(AIS)として知られるものを用いて定量化される表現の品質に依存することを示した。
この近似誤差の特性に基づいて、AIS損失のあるRQLの変種を示す。
この変種は、AIS損失を使用しないRQLの強力なベースラインよりもパフォーマンスがよい。
時間とともにRQLの性能とAIS表現に伴う損失との間には強い相関関係があることが示されている。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Uncertainty-Aware Deep Attention Recurrent Neural Network for
Heterogeneous Time Series Imputation [0.25112747242081457]
欠落は多変量時系列においてユビキタスであり、信頼できる下流分析の障害となる。
本稿では、欠落した値とその関連不確かさを共同で推定するDeep Attention Recurrent Imputation (Imputation)を提案する。
実験の結果,実世界のデータセットを用いた多様な計算タスクにおいて,SOTAを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-04T13:21:11Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - ARRQP: Anomaly Resilient Real-time QoS Prediction Framework with Graph
Convolution [0.16317061277456998]
我々は、データ内の異常に対するレジリエンスを改善することに焦点を当てたリアルタイム予測フレームワーク(ARRQP)を導入する。
ARRQPはコンテキスト情報と協調的な洞察を統合し、ユーザとサービスのインタラクションの包括的な理解を可能にする。
ベンチマークWS-DREAMデータセットの結果は、正確でタイムリーな予測を達成する上で、フレームワークの有効性を示している。
論文 参考訳(メタデータ) (2023-09-22T04:37:51Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Federated Latent Class Regression for Hierarchical Data [5.110894308882439]
フェデレートラーニング(FL)は、多くのエージェントがローカルに保存されたデータを開示することなく、グローバル機械学習モデルのトレーニングに参加することを可能にする。
本稿では,新しい確率モデルである階層潜在クラス回帰(HLCR)を提案し,フェデレートラーニング(FEDHLCR)への拡張を提案する。
我々の推論アルゴリズムはベイズ理論から派生したもので、強い収束保証と過剰適合性を提供する。実験結果から、FEDHLCRは非IIDデータセットにおいても高速収束を提供することが示された。
論文 参考訳(メタデータ) (2022-06-22T00:33:04Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Deep Neural Networks for Approximating Stream Reasoning with C-SPARQL [0.8677532138573983]
C-SPARQLはRDFデータのストリーム上の連続的なクエリのための言語である。
本稿では,C-SPARQLを用いた推論を,リカレントニューラルネットワークと畳み込みニューラルネットワークを用いて近似できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-06-15T21:51:47Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。