論文の概要: Sample Efficient Reinforcement Learning in Mixed Systems through
Augmented Samples and Its Applications to Queueing Networks
- arxiv url: http://arxiv.org/abs/2305.16483v2
- Date: Wed, 8 Nov 2023 07:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:50:03.311140
- Title: Sample Efficient Reinforcement Learning in Mixed Systems through
Augmented Samples and Its Applications to Queueing Networks
- Title(参考訳): 拡張サンプルによる混合システムにおけるサンプル効率的な強化学習とその待ち行列ネットワークへの応用
- Authors: Honghao Wei, Xin Liu, Weina Wang, Lei Ying
- Abstract要約: 本稿では,2種類の状態を持つシステムに関わる強化学習問題のクラスについて考察する。
拡張データサンプルを生成することで学習を高速化するサンプル効率のよい手法を提案する。
- 参考スコア(独自算出の注目度): 22.20726152012564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers a class of reinforcement learning problems, which
involve systems with two types of states: stochastic and pseudo-stochastic. In
such systems, stochastic states follow a stochastic transition kernel while the
transitions of pseudo-stochastic states are deterministic given the stochastic
states/transitions. We refer to such systems as mixed systems, which are widely
used in various applications, including manufacturing systems, communication
networks, and queueing networks. We propose a sample efficient RL method that
accelerates learning by generating augmented data samples. The proposed
algorithm is data-driven and learns the policy from data samples from both real
and augmented samples. This method significantly improves learning by reducing
the sample complexity such that the dataset only needs to have sufficient
coverage of the stochastic states. We analyze the sample complexity of the
proposed method under Fitted Q Iteration (FQI) and demonstrate that the
optimality gap decreases as
$\tilde{\mathcal{O}}(\sqrt{{1}/{n}}+\sqrt{{1}/{m}}),$ where $n$ is the number
of real samples and $m$ is the number of augmented samples per real sample. It
is important to note that without augmented samples, the optimality gap is
$\tilde{\mathcal{O}}(1)$ due to insufficient data coverage of the
pseudo-stochastic states. Our experimental results on multiple queueing network
applications confirm that the proposed method indeed significantly accelerates
learning in both deep Q-learning and deep policy gradient.
- Abstract(参考訳): 本稿では,2種類の状態を持つシステムを含む強化学習問題(確率的および擬確率的)について考察する。
このようなシステムでは、確率状態は確率遷移核に従い、擬確率状態の遷移は確率状態/遷移から決定論的である。
本稿では,製造システム,通信ネットワーク,待ち行列ネットワークなど,様々な用途で広く利用されている混合システムについて述べる。
拡張データサンプルを生成することで学習を高速化する,効率的なRL法を提案する。
提案アルゴリズムはデータ駆動型であり,実データと増補データの両方からポリシーを学習する。
この方法は、データセットが確率状態の十分なカバレッジしか持たないように、サンプルの複雑さを減らし、学習を大幅に改善する。
そこで,Fitted Q Iteration (FQI) を用いて提案手法のサンプル複雑性を解析し,その最適性ギャップが$\tilde{\mathcal{O}}(\sqrt{{1}/{n}}+\sqrt{{1}/{m}})として減少することを示した。
拡張サンプルがなければ、擬似確率状態のデータカバレッジが不十分なため、最適性ギャップは$\tilde{\mathcal{O}}(1)$である。
複数の待ち行列ネットワークアプリケーションに対する実験結果から,提案手法が深いQ-ラーニングと深いポリシー勾配の両方において学習を著しく加速することを確認した。
関連論文リスト
- Iterated Denoising Energy Matching for Sampling from Boltzmann Densities [109.23137009609519]
反復Denoising Energy Matching (iDEM)
iDEMは,拡散型サンプリング装置から高モデル密度のサンプリング領域を (I) 交換し, (II) それらのサンプルをマッチング目的に使用した。
提案手法は,全測定値の最先端性能を達成し,2~5倍の速さでトレーニングを行う。
論文 参考訳(メタデータ) (2024-02-09T01:11:23Z) - Sampling weights of deep neural networks [1.2370077627846041]
完全に接続されたニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習環境では、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプルネットワークが普遍近似器であることを証明する。
論文 参考訳(メタデータ) (2023-06-29T10:13:36Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Adaptive Client Sampling in Federated Learning via Online Learning with
Bandit Feedback [36.05851452151107]
統合学習(FL)システムは、トレーニングの各ラウンドに関与するクライアントのサブセットをサンプリングする必要があります。
その重要性にもかかわらず、クライアントを効果的にサンプリングする方法には制限がある。
提案手法は,最適化アルゴリズムの収束速度をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Near-optimal Offline and Streaming Algorithms for Learning Non-Linear
Dynamical Systems [45.17023170054112]
X_t+1 = phi(A* X_t) + eta_t$, where $eta_t$ is unbiased noise and $phi : mathbbR to mathbbR$ is a known link function that certain em expansivity properties。
論文 参考訳(メタデータ) (2021-05-24T22:14:26Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Effective Proximal Methods for Non-convex Non-smooth Regularized
Learning [27.775096437736973]
独立サンプリング方式は、一般に使用されている一様サンプリング方式の性能を向上させる傾向にあることを示す。
我々の新しい分析は、サンプリングの速度が今までで最高のものより速いことも示しています。
論文 参考訳(メタデータ) (2020-09-14T16:41:32Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。