論文の概要: Whittle index based Q-learning for restless bandits with average reward
- arxiv url: http://arxiv.org/abs/2004.14427v3
- Date: Tue, 21 Sep 2021 15:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:15:47.719376
- Title: Whittle index based Q-learning for restless bandits with average reward
- Title(参考訳): 平均報酬を有するレストレスバンディットに対するWhittle index based Q-learning
- Authors: Konstantin E. Avrachenkov and Vivek S. Borkar
- Abstract要約: Q-learning と Whittle index のパラダイムを用いて,多腕レストレスバンディットに対する新しい強化学習アルゴリズムを提案する。
我々は、Whittleインデックスポリシーの構造を利用して、Q学習の検索スペースを削減し、大きな計算ゲインをもたらす。
- 参考スコア(独自算出の注目度): 0.3553493344868413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel reinforcement learning algorithm is introduced for multiarmed
restless bandits with average reward, using the paradigms of Q-learning and
Whittle index. Specifically, we leverage the structure of the Whittle index
policy to reduce the search space of Q-learning, resulting in major
computational gains. Rigorous convergence analysis is provided, supported by
numerical experiments. The numerical experiments show excellent empirical
performance of the proposed scheme.
- Abstract(参考訳): q-learningとwhitle indexのパラダイムを用いて,平均報酬の多腕レストレスバンディットに対して新しい強化学習アルゴリズムを導入した。
具体的には、Whittleインデックスポリシの構造を活用して、Q学習の検索スペースを削減し、大きな計算ゲインをもたらす。
数値実験により厳密な収束解析が提供されている。
数値実験により,提案手法の優れた実験性能を示す。
関連論文リスト
- The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Full Gradient Deep Reinforcement Learning for Average-Reward Criterion [0.17188280334580194]
RVI Q-Learning と最近提案した差分Q-Learning をニューラルファンクション近似設定で比較した。
また、これを拡張して、マルコフのレスト・マルチアーム・バンディットのウィトル指標を学習する。
論文 参考訳(メタデータ) (2023-04-07T16:50:46Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Data-dependent Pruning to find the Winning Lottery Ticket [0.0]
Lottery Ticket仮説は、新しいニューラルネットワークには、完全なネットワークと同じようなパフォーマンスを達成するためにトレーニング可能な、小さなサブネットワークが含まれている、と仮定する。
我々は、データ依存コンポーネントをプルーニング基準に組み込むことで、既存のプルーニングアルゴリズムの性能を一貫して向上させると結論付けた。
論文 参考訳(メタデータ) (2020-06-25T12:48:34Z) - Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing [2.5137859989323537]
多数のポリシーネットワークは、パラメータをランダムに推測して生成され、その後、ベンチマークタスクで評価される。
本手法は, 環境の複雑さを分離し, 課題の種類を明確にし, 課題の難易度を統計的に解析するための適切な基盤を提供する。
我々は、OpenAI Gymの様々な古典的な制御ベンチマークでアプローチをテストし、そこでは、訓練されていない小さなネットワークが様々なタスクに対して堅牢なベースラインを提供することを示す。
論文 参考訳(メタデータ) (2020-04-16T15:32:52Z) - Tune smarter not harder: A principled approach to tuning learning rates
for shallow nets [13.203765985718201]
浅いフィードフォワードニューラルネットワークに対して,学習率を選択するための原則的アプローチを提案する。
シミュレーションにより,提案手法が既存のチューニング手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-22T09:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。