論文の概要: Model-Based Learning of Whittle indices
- arxiv url: http://arxiv.org/abs/2511.20397v1
- Date: Tue, 25 Nov 2025 15:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.521744
- Title: Model-Based Learning of Whittle indices
- Title(参考訳): ウィトル指標のモデルに基づく学習
- Authors: Joël Charles-Rebuffé, Nicolas Gast, Bruno Gaujal,
- Abstract要約: BLINQは、インデックス可能、通信可能、一本鎖のマルコフ決定プロセス(MDP)のWhittle指標を学習する新しいモデルベースのアルゴリズムである。
BLINQは、正確な近似を得るために必要となるサンプルの数で、既存のQ-ラーニングアプローチよりも大幅に優れています。
総計算コストはQラーニングよりさらに低く、合理的に多くのサンプルがある。
- 参考スコア(独自算出の注目度): 5.830619388189558
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present BLINQ, a new model-based algorithm that learns the Whittle indices of an indexable, communicating and unichain Markov Decision Process (MDP). Our approach relies on building an empirical estimate of the MDP and then computing its Whittle indices using an extended version of a state-of-the-art existing algorithm. We provide a proof of convergence to the Whittle indices we want to learn as well as a bound on the time needed to learn them with arbitrary precision. Moreover, we investigate its computational complexity. Our numerical experiments suggest that BLINQ significantly outperforms existing Q-learning approaches in terms of the number of samples needed to get an accurate approximation. In addition, it has a total computational cost even lower than Q-learning for any reasonably high number of samples. These observations persist even when the Q-learning algorithms are speeded up using pre-trained neural networks to predict Q-values.
- Abstract(参考訳): 我々は、インデックス可能で通信可能で一本鎖のMarkov Decision Process(MDP)のWhittle指標を学習する新しいモデルベースアルゴリズムであるBLINQを提案する。
我々のアプローチは、MDPの実証的な見積もりを構築し、そのWhittleインデックスを最先端の既存アルゴリズムの拡張バージョンを使って計算することに依存している。
我々は、学習したいウィトル指標への収束の証明と、それらを任意の精度で学習するために必要な時間制限を提供する。
さらに,計算複雑性について検討する。
我々の数値実験により、BLINQは正確な近似を得るのに必要なサンプルの数で既存のQ-ラーニング手法よりも大幅に優れていることが示唆された。
さらに、合理的に多くのサンプルに対してQラーニングよりも計算コストが低い。
これらの観測は、Q-ラーニングアルゴリズムがトレーニング済みニューラルネットワークを使用してQ-値を予測する際にも継続する。
関連論文リスト
- Asymptotic Analysis of Sample-averaged Q-learning [2.2374171443798034]
本稿では、サンプル平均Qラーニング(SA-QL)と呼ばれる、時間変化のバッチ平均Qラーニングのためのフレームワークを提案する。
サンプル平均化アルゴリズムの機能的中心極限を軽度条件下で利用し,間隔推定のためのランダムなスケーリング手法を開発した。
この研究は、サンプル平均Q-ラーニングのための統一理論基盤を確立し、効率的なバッチスケジューリングとRLアルゴリズムの統計的推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - Faster Q-Learning Algorithms for Restless Bandits [0.0]
レスレスマルチアームバンド(RMAB)のためのWhittleインデックス学習アルゴリズムについて検討する。
まず、Q-ラーニングアルゴリズムとその変種について、高速Q-ラーニング(RMAB)、一般化高速Q-ラーニング(G)、位相Q-ラーニング(PhaseQL)について述べる。
論文 参考訳(メタデータ) (2024-09-06T20:55:07Z) - Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes [3.3918638314432945]
レスレスマルチアームバンディットのためのWhittleインデックス学習アルゴリズムについて検討する。
まず,探索ポリシを持つQ-ラーニングアルゴリズム,すなわちepsilon-greedy, softmax, epsilon-softmaxを定常的なステップサイズで提案する。
単腕レスト・バンディットのための索引学習へのQ-ラーニングの研究を拡張した。
論文 参考訳(メタデータ) (2024-09-06T20:24:19Z) - Tabular and Deep Learning for the Whittle Index [0.2749898166276853]
本稿では,QWIとQWINNの2つの強化学習アルゴリズムについて紹介する。
我々の主要な理論的結果において、QWI は真のウィトル指標に収束することを示す。
QWINN の場合、ベルマン誤差の局所最小値はすべて局所安定平衡であることを示す。
数値計算により、QWIとQWINNは標準Q-ラーニングアルゴリズムよりも高速に収束することが示された。
論文 参考訳(メタデータ) (2024-06-04T07:41:15Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - A didactic approach to quantum machine learning with a single qubit [68.8204255655161]
我々は、データ再ロード技術を用いて、単一のキュービットで学習するケースに焦点を当てる。
我々は、Qiskit量子コンピューティングSDKを用いて、おもちゃと現実世界のデータセットに異なる定式化を実装した。
論文 参考訳(メタデータ) (2022-11-23T18:25:32Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。