論文の概要: NeurWIN: Neural Whittle Index Network For Restless Bandits Via Deep RL
- arxiv url: http://arxiv.org/abs/2110.02128v1
- Date: Tue, 5 Oct 2021 15:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:21:29.571090
- Title: NeurWIN: Neural Whittle Index Network For Restless Bandits Via Deep RL
- Title(参考訳): NeurWIN:レストレスバンドのためのニューラルネットワークWhittle Index Network
- Authors: Khaled Nakhleh, Santosh Ganji, Ping-Chun Hsieh, I-Hong Hou, Srinivas
Shakkottai
- Abstract要約: NeurWINは神経質なWhittleインデックスネットワークで、Whittleインデックスを学習し、レスリーブレイディットを学習する。
また、Whittleインデックスを生成するニューラルネットワークは、マルコフ決定問題の集合に対する最適制御を生成するニューラルネットワークでもあることを示す。
- 参考スコア(独自算出の注目度): 12.72552875055972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whittle index policy is a powerful tool to obtain asymptotically optimal
solutions for the notoriously intractable problem of restless bandits. However,
finding the Whittle indices remains a difficult problem for many practical
restless bandits with convoluted transition kernels. This paper proposes
NeurWIN, a neural Whittle index network that seeks to learn the Whittle indices
for any restless bandits by leveraging mathematical properties of the Whittle
indices. We show that a neural network that produces the Whittle index is also
one that produces the optimal control for a set of Markov decision problems.
This property motivates using deep reinforcement learning for the training of
NeurWIN. We demonstrate the utility of NeurWIN by evaluating its performance
for three recently studied restless bandit problems. Our experiment results
show that the performance of NeurWIN is significantly better than other RL
algorithms.
- Abstract(参考訳): ホイットル・インデックス・ポリシーは、restless banditsの悪名高い難解な問題に対して漸近的に最適な解を得るための強力なツールである。
しかし、ウィトル指数の発見は、複雑な遷移カーネルを持つ多くの実用的なレストレスバンドイットにとって難しい問題である。
本稿では,神経ウィットル指数ネットワークであるneurwinを提案する。ウィットル指数の数学的性質を利用して,任意のレストレスバンディットのウィットルインデックスを学習することを目指す。
また、Whittleインデックスを生成するニューラルネットワークは、マルコフ決定問題の集合に対する最適制御を生成するニューラルネットワークでもあることを示す。
この性質は、NeurWINのトレーニングに深い強化学習を使用する動機となっている。
我々は最近研究された3つのレスレス・バンディット問題に対するNeurWINの有効性を実証した。
実験の結果,NeurWINの性能は他のRLアルゴリズムよりも優れていた。
関連論文リスト
- LinSATNet: The Positive Linear Satisfiability Neural Networks [116.65291739666303]
本稿では,ニューラルネットワークに人気の高い正の線形満足度を導入する方法について検討する。
本稿では,古典的なシンクホーンアルゴリズムを拡張し,複数の辺分布の集合を共同で符号化する,最初の微分可能満足層を提案する。
論文 参考訳(メタデータ) (2024-07-18T22:05:21Z) - ReLUs Are Sufficient for Learning Implicit Neural Representations [17.786058035763254]
暗黙的神経表現学習におけるReLUアクティベーション関数の使用について再考する。
2次B-スプラインウェーブレットにインスパイアされ、ディープニューラルネットワーク(DNN)の各層にReLUニューロンに一連の簡単な制約を組み込む。
我々は、一般的な信念とは対照的に、ReLUニューロンのみからなるDNNに基づいて最先端のINRを学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-04T17:51:08Z) - Cryptocurrency Portfolio Optimization by Neural Networks [81.20955733184398]
本稿では,これらの投資商品を活用するために,ニューラルネットワークに基づく効果的なアルゴリズムを提案する。
シャープ比を最大化するために、各アセットの割り当て重量を時間間隔で出力するディープニューラルネットワークを訓練する。
ネットワークの特定の資産に対するバイアスを規制する新たな損失項を提案し,最小分散戦略に近い割り当て戦略をネットワークに学習させる。
論文 参考訳(メタデータ) (2023-10-02T12:33:28Z) - Convergence and Recovery Guarantees of Unsupervised Neural Networks for Inverse Problems [2.6695224599322214]
我々は、逆問題を解決するために訓練された教師なしフィードフォワード多層ニューラルネットワークのクラスに対して、決定論的収束と回復保証を提供する。
また、スムーズなアクティベーション関数を持つ2層ディープ逆プリエントネットワークが保証の恩恵を受けるようなオーバーパラメトリゼーション境界を導出する。
論文 参考訳(メタデータ) (2023-09-21T14:48:02Z) - Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Energy Regularized RNNs for Solving Non-Stationary Bandit Problems [97.72614340294547]
我々は、ニューラルネットワークが特定の行動を支持するのに自信過剰になるのを防ぐエネルギー用語を提案する。
提案手法は,ロッティングバンドのサブプロブレムを解く方法と同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2023-03-12T03:32:43Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Efficiently Learning Any One Hidden Layer ReLU Network From Queries [27.428198343906352]
ネットワークへのブラックボックスアクセスを提供するニューラルネットワークアクティベーションを任意の1つの隠蔽層で学習するアルゴリズムを初めて提供する。
最悪のネットワークであっても、完全時間で効率を保証できるのはこれが初めてです。
論文 参考訳(メタデータ) (2021-11-08T18:59:40Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Whittle index based Q-learning for restless bandits with average reward [0.3553493344868413]
Q-learning と Whittle index のパラダイムを用いて,多腕レストレスバンディットに対する新しい強化学習アルゴリズムを提案する。
我々は、Whittleインデックスポリシーの構造を利用して、Q学習の検索スペースを削減し、大きな計算ゲインをもたらす。
論文 参考訳(メタデータ) (2020-04-29T18:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。