論文の概要: Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning
- arxiv url: http://arxiv.org/abs/2411.08360v1
- Date: Wed, 13 Nov 2024 06:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:10:13.749576
- Title: Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning
- Title(参考訳): デジタルクーシン選択のための被覆解析-マルチ環境Q-Learningの改善
- Authors: Talha Bozkus, Tara Javidi, Urbashi Mitra,
- Abstract要約: 近年の進歩としては、マルチ環境混合Q-ラーニング(MEMQ)アルゴリズムがある。
MEMQアルゴリズムは、精度、複雑さ、堅牢性の点で、最先端のQ-ラーニングアルゴリズムよりも優れています。
本稿では,既存のMEMQアルゴリズムの精度と複雑さを改善するために,新しいCCベースのMEMQアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 24.212773534280387
- License:
- Abstract: Q-learning is widely employed for optimizing various large-dimensional networks with unknown system dynamics. Recent advancements include multi-environment mixed Q-learning (MEMQ) algorithms, which utilize multiple independent Q-learning algorithms across multiple, structurally related but distinct environments and outperform several state-of-the-art Q-learning algorithms in terms of accuracy, complexity, and robustness. We herein conduct a comprehensive probabilistic coverage analysis to ensure optimal data coverage conditions for MEMQ algorithms. First, we derive upper and lower bounds on the expectation and variance of different coverage coefficients (CC) for MEMQ algorithms. Leveraging these bounds, we develop a simple way of comparing the utilities of multiple environments in MEMQ algorithms. This approach appears to be near optimal versus our previously proposed partial ordering approach. We also present a novel CC-based MEMQ algorithm to improve the accuracy and complexity of existing MEMQ algorithms. Numerical experiments are conducted using random network graphs with four different graph properties. Our algorithm can reduce the average policy error (APE) by 65% compared to partial ordering and is 95% faster than the exhaustive search. It also achieves 60% less APE than several state-of-the-art reinforcement learning and prior MEMQ algorithms. Additionally, we numerically verify the theoretical results and show their scalability with the action-space size.
- Abstract(参考訳): Q-ラーニングは、未知のシステムダイナミクスを持つ様々な大規模ネットワークの最適化に広く用いられている。
マルチ環境混合Q-ラーニング(MEMQ)アルゴリズムは、複数の構造的関連性のある異なる環境にまたがる複数の独立したQ-ラーニングアルゴリズムを利用し、精度、複雑さ、堅牢性の観点から、最先端Q-ラーニングアルゴリズムより優れている。
本稿では,MEMQアルゴリズムの最適データカバレッジ条件を確保するため,包括的確率的カバレッジ解析を行う。
まず,MEMQアルゴリズムに対する異なるカバレッジ係数(CC)の期待値と分散値の上限値と下限値の導出を行う。
これらのバウンダリを活用することで、MEMQアルゴリズムで複数の環境のユーティリティを比較する簡単な方法が開発されます。
このアプローチは、以前提案した部分順序付け手法と比較して、ほぼ最適である。
また,既存のMEMQアルゴリズムの精度と複雑さを改善するために,新しいCCベースのMEMQアルゴリズムを提案する。
4つの異なるグラフ特性を持つランダムネットワークグラフを用いて数値実験を行った。
本アルゴリズムは,部分順序よりも平均ポリシエラー(APE)を65%削減し,全探索よりも95%高速である。
また、最先端の強化学習やMEMQアルゴリズムよりも60%少ないAPEを実現している。
さらに,理論的結果を数値的に検証し,その拡張性をアクション空間サイズで示す。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Coverage Analysis of Multi-Environment Q-Learning Algorithms for Wireless Network Optimization [18.035417008213077]
最近の進歩には、アンサンブルマルチ環境ハイブリッドQ-ラーニングアルゴリズムが含まれる。
提案アルゴリズムは,現状の強化学習アルゴリズムよりも,ポリシエラーの50パーセント,実行時複雑性の40パーセントを達成可能であることを示す。
論文 参考訳(メタデータ) (2024-08-29T20:09:20Z) - Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-02-08T08:08:23Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - A survey on multi-objective hyperparameter optimization algorithms for
Machine Learning [62.997667081978825]
本稿では,多目的HPOアルゴリズムに関する2014年から2020年にかけての文献を体系的に調査する。
メタヒューリスティック・ベース・アルゴリズムとメタモデル・ベース・アルゴリズム,および両者を混合したアプローチを区別する。
また,多目的HPO法と今後の研究方向性を比較するための品質指標についても論じる。
論文 参考訳(メタデータ) (2021-11-23T10:22:30Z) - Preventing Value Function Collapse in Ensemble {Q}-Learning by
Maximizing Representation Diversity [0.0]
MaxminとEnsemble Q-learningアルゴリズムは、過大評価バイアスを減らすために、学習者のアンサンブルが提供する異なる推定値を使用している。
残念ながら、これらの学習者はパラメトリックまたは表現空間において同じ点に収束し、古典的な単一ニューラルネットワークDQNに戻ることができる。
経済理論とコンセンサス最適化から着想を得た5つの正規化関数を提案し,比較する。
論文 参考訳(メタデータ) (2020-06-24T15:53:20Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。
我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-29T09:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。