Fugu-MT 論文翻訳(概要): Deep Index Policy for Multi-Resource Restless Matching Bandit and Its Application in Multi-Channel Scheduling

論文の概要: Deep Index Policy for Multi-Resource Restless Matching Bandit and Its Application in Multi-Channel Scheduling

arxiv url: http://arxiv.org/abs/2408.07205v1
Date: Tue, 13 Aug 2024 21:24:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 14:35:46.771818
Title: Deep Index Policy for Multi-Resource Restless Matching Bandit and Its Application in Multi-Channel Scheduling
Title（参考訳）: マルチリソースレストレスマッチング帯域に対するディープインデックスポリシーとマルチチャネルスケジューリングへの応用
Authors: Nida Zamir, I-Hong Hou,
Abstract要約: 異種資源システムのためのマルチリソースレスマッチング帯域(MR-RMB)モデルについて論じる。 MR-RMBに適したオンライン学習アルゴリズムであるDeep Index Policy(DIP)を導入する。シミュレーションの結果,DIPが効率よく部分指数を学習できることが示唆された。
参考スコア（独自算出の注目度）: 6.648181286553698
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scheduling in multi-channel wireless communication system presents formidable challenges in effectively allocating resources. To address these challenges, we investigate the multi-resource restless matching bandit (MR-RMB) model for heterogeneous resource systems with an objective of maximizing long-term discounted total rewards while respecting resource constraints. We have also generalized to applications beyond multi-channel wireless. We discuss the Max-Weight Index Matching algorithm, which optimizes resource allocation based on learned partial indexes. We have derived the policy gradient theorem for index learning. Our main contribution is the introduction of a new Deep Index Policy (DIP), an online learning algorithm tailored for MR-RMB. DIP learns the partial index by leveraging the policy gradient theorem for restless arms with convoluted and unknown transition kernels of heterogeneous resources. We demonstrate the utility of DIP by evaluating its performance for three different MR-RMB problems. Our simulation results show that DIP indeed learns the partial indexes efficiently.
Abstract（参考訳）: マルチチャネル無線通信システムにおけるスケジューリングは、リソースの割り当てを効果的に行う上で非常に困難な課題である。これらの課題に対処するために、資源制約を尊重しつつ長期割引された全報酬を最大化することを目的として、異種資源システムに対するマルチリソースレスマッチング・バンディット(MR-RMB)モデルについて検討する。また、マルチチャネル無線以外のアプリケーションにも一般化した。学習した部分指数に基づいて資源割り当てを最適化するMax-Weight Index Matchingアルゴリズムについて検討する。我々は、索引学習のためのポリシー勾配定理を導出した。私たちの主な貢献は、MR-RMBに適したオンライン学習アルゴリズムである、新しいDeep Index Policy(DIP)の導入です。 DIPは、不均一資源の複雑で未知の遷移核を持つレスレスアームに対するポリシー勾配定理を利用して部分指数を学習する。 3つのMR-RMB問題に対してDIPの有効性を評価する。シミュレーションの結果,DIPが効率よく部分指数を学習できることが示唆された。

関連論文リスト

From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文参考訳（メタデータ） (2026-01-28T09:29:40Z)
Generative Diffusion Models for Resource Allocation in Wireless Networks [77.36145730415045]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。生成したサンプルの逐次実行により,ほぼ最適性能を実現する。本稿では,マルチユーザ干渉ネットワークにおける電力制御のケーススタディとして数値的な結果を示す。
論文参考訳（メタデータ） (2025-04-28T21:44:31Z)
Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文参考訳（メタデータ） (2024-10-14T14:52:23Z)
Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。 HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2024-06-25T07:42:30Z)
Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-02T01:36:13Z)
Towards Realistic Low-resource Relation Extraction: A Benchmark with Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文参考訳（メタデータ） (2022-10-19T15:46:37Z)
MIX-MAB: Reinforcement Learning-based Resource Allocation Algorithm for LoRaWAN [6.22984202194369]
本稿では,パケット配信率(PDR)の観点から資源配分アルゴリズムの改善に焦点をあてる。そこで本稿では,EDが送信パラメータを分散的に設定できる資源割当アルゴリズムを提案する。数値計算の結果,提案手法は収束時間やPDRの点で既存の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-07T15:50:05Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Deep Reinforcement Learning for Resource Constrained Multiclass Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文参考訳（メタデータ） (2020-11-27T09:49:38Z)
Resource Allocation via Model-Free Deep Learning in Free Space Optical Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-27T17:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。