論文の概要: Semi-Gradient SARSA Routing with Theoretical Guarantee on Traffic Stability and Weight Convergence
- arxiv url: http://arxiv.org/abs/2503.14927v1
- Date: Wed, 19 Mar 2025 06:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:21:38.546664
- Title: Semi-Gradient SARSA Routing with Theoretical Guarantee on Traffic Stability and Weight Convergence
- Title(参考訳): 交通安定度と重み収束性に関する理論的保証付き半勾配SARSAルーティング
- Authors: Yidan Wu, Yu Yu, Jianan Zhang, Li Jin,
- Abstract要約: そこで本研究では,近似的最適ルーティングポリシーを学習する半漸進的オン・ポリシーアルゴリズムを提案する。
シミュレーションにより、我々のアルゴリズムはニューラルネットワークベースの手法よりもはるかに高速に収束できることを実証する。
- 参考スコア(独自算出の注目度): 7.64859175875668
- License:
- Abstract: We consider the traffic control problem of dynamic routing over parallel servers, which arises in a variety of engineering systems such as transportation and data transmission. We propose a semi-gradient, on-policy algorithm that learns an approximate optimal routing policy. The algorithm uses generic basis functions with flexible weights to approximate the value function across the unbounded state space. Consequently, the training process lacks Lipschitz continuity of the gradient, boundedness of the temporal-difference error, and a prior guarantee on ergodicity, which are the standard prerequisites in existing literature on reinforcement learning theory. To address this, we combine a Lyapunov approach and an ordinary differential equation-based method to jointly characterize the behavior of traffic state and approximation weights. Our theoretical analysis proves that the training scheme guarantees traffic state stability and ensures almost surely convergence of the weights to the approximate optimum. We also demonstrate via simulations that our algorithm attains significantly faster convergence than neural network-based methods with an insignificant approximation error.
- Abstract(参考訳): 本稿では,並列サーバ上での動的ルーティングのトラフィック制御問題について考察する。
本稿では,近似最適ルーティングポリシーを学習する半漸進的オン・ポリシーアルゴリズムを提案する。
このアルゴリズムは、フレキシブルウェイトを持つジェネリック基底関数を用いて、非有界な状態空間における値関数を近似する。
その結果、トレーニングプロセスには勾配のリプシッツ連続性、時間差誤差の有界性、エルゴディディディティに関する事前保証が欠落しており、これは強化学習理論に関する既存の文献の標準的な前提条件である。
これを解決するために、リアプノフ法と通常の微分方程式に基づく手法を組み合わせて、交通状態と近似重みの挙動を共同で特徴づける。
理論的解析により, トレーニング方式は交通状態の安定性を保証し, 重みのほぼ確実に近似最適収束を保証している。
また、シミュレーションにより、我々のアルゴリズムは、重要な近似誤差を持つニューラルネットワークベースの手法よりもはるかに高速に収束できることを実証した。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Efficient Neural Network Approaches for Conditional Optimal Transport with Applications in Bayesian Inference [1.740133468405535]
静的および条件付き最適輸送(COT)問題の解を近似する2つのニューラルネットワークアプローチを提案する。
我々は、ベンチマークデータセットとシミュレーションに基づく逆問題を用いて、両アルゴリズムを競合する最先端のアプローチと比較する。
論文 参考訳(メタデータ) (2023-10-25T20:20:09Z) - Hybrid algorithm simulating non-equilibrium steady states of an open
quantum system [10.752869788647802]
非平衡定常状態は開量子系の研究の焦点である。
これらの定常状態を探すための従来の変分アルゴリズムは、資源集約的な実装に悩まされてきた。
我々は、リンドブラッド方程式の演算子-サム形式をシミュレートすることにより、非平衡定常状態の効率的な探索を行う新しい変分量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:57:27Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Data efficient reinforcement learning and adaptive optimal perimeter
control of network traffic dynamics [0.0]
本研究は、適応最適周波制御のためのマクロトラフィックダイナミクスの学習のための積分強化学習(IRL)に基づくアプローチを提案する。
サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するために、IRLアルゴリズムに経験再生(ER)技術を導入している。
IRLに基づくアルゴリズムの収束と制御された交通力学の安定性は、リャプノフ理論によって証明される。
論文 参考訳(メタデータ) (2022-09-13T04:28:49Z) - LyaNet: A Lyapunov Framework for Training Neural ODEs [59.73633363494646]
制御理論的リアプノフ条件を用いて常微分方程式を訓練する手法を提案する。
我々のアプローチはLyaNetと呼ばれ、推論ダイナミクスを正しい予測に迅速に収束させる新しいLyapunov損失定式化に基づいている。
論文 参考訳(メタデータ) (2022-02-05T10:13:14Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Learning Scalable Multi-Agent Coordination by Spatial Differentiation
for Traffic Signal Control [8.380832628205372]
交通信号制御のためのディープ強化学習法に基づくマルチエージェント協調フレームワークを設計する。
具体的には、リプレイバッファ内の時間空間情報を用いて各アクションの報酬を補正する調整のための空間差分法を提案する。
論文 参考訳(メタデータ) (2020-02-27T02:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。