論文の概要: Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach
- arxiv url: http://arxiv.org/abs/2501.11921v1
- Date: Tue, 21 Jan 2025 06:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:35.995209
- Title: Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach
- Title(参考訳): 目標指向型送信スケジューリング:統一的なデュアルオン政治とオフ政治アプローチによる構造誘導型DRL
- Authors: Jiazheng Chen, Wanchun Liu,
- Abstract要約: 目標指向スケジューリング問題に対する最適解の構造的特性を導出し,情報化時代(AoI)とチャネル状態を統合する。
そこで本研究では,オンライントレーニングの安定性と非政治手法のサンプル効率を併用したハイブリッドアルゴリズムである,構造誘導型統合二重オンオフポリシーDRL(SUDO-DRL)を提案する。
数値計算の結果,SUDO-DRLはシステム性能を最大45%改善し,コンバージェンス時間を40%削減した。
- 参考スコア(独自算出の注目度): 3.6509749032112753
- License:
- Abstract: Goal-oriented communications prioritize application-driven objectives over data accuracy, enabling intelligent next-generation wireless systems. Efficient scheduling in multi-device, multi-channel systems poses significant challenges due to high-dimensional state and action spaces. We address these challenges by deriving key structural properties of the optimal solution to the goal-oriented scheduling problem, incorporating Age of Information (AoI) and channel states. Specifically, we establish the monotonicity of the optimal state value function (a measure of long-term system performance) w.r.t. channel states and prove its asymptotic convexity w.r.t. AoI states. Additionally, we derive the monotonicity of the optimal policy w.r.t. channel states, advancing the theoretical framework for optimal scheduling. Leveraging these insights, we propose the structure-guided unified dual on-off policy DRL (SUDO-DRL), a hybrid algorithm that combines the stability of on-policy training with the sample efficiency of off-policy methods. Through a novel structural property evaluation framework, SUDO-DRL enables effective and scalable training, addressing the complexities of large-scale systems. Numerical results show SUDO-DRL improves system performance by up to 45% and reduces convergence time by 40% compared to state-of-the-art methods. It also effectively handles scheduling in much larger systems, where off-policy DRL fails and on-policy benchmarks exhibit significant performance loss, demonstrating its scalability and efficacy in goal-oriented communications.
- Abstract(参考訳): ゴール指向通信は、データ精度よりもアプリケーション駆動の目的を優先し、インテリジェントな次世代無線システムを実現する。
マルチデバイス・マルチチャネルシステムにおける効率的なスケジューリングは、高次元の状態と行動空間によって大きな課題を生じさせる。
目標指向スケジューリング問題に対する最適解の鍵となる構造特性を導出し,情報化時代(AoI)とチャネル状態を統合することで,これらの課題に対処する。
具体的には、最適状態値関数 w.r.t.チャネル状態の単調性を確立し、その漸近凸性 w.r.t.AoI 状態を証明する。
さらに、最適なポリシw.r.t.チャネル状態の単調性を導出し、最適なスケジューリングの理論的枠組みを推し進める。
これらの知見を生かして、オンライントレーニングの安定性とオフ政治手法のサンプル効率を結合したハイブリッドアルゴリズムである、構造誘導型統合二重オンオフポリシーDRL(SUDO-DRL)を提案する。
新たな構造特性評価フレームワークを通じて,SUDO-DRLは大規模システムの複雑さに対処し,効果的でスケーラブルなトレーニングを可能にする。
数値計算の結果,SUDO-DRLはシステム性能を最大45%改善し,コンバージェンス時間を40%削減した。
また、オフ・ポリティクスのDRLが失敗し、オン・ポリティクスのベンチマークが大きなパフォーマンス損失を示し、ゴール指向通信におけるスケーラビリティと有効性を示すような、より大規模なシステムでのスケジューリングも効果的に処理する。
関連論文リスト
- Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Optimization Theory Based Deep Reinforcement Learning for Resource
Allocation in Ultra-Reliable Wireless Networked Control Systems [10.177917426690701]
本稿では,制御系と通信系の共同設計のための,新しい最適化理論に基づく深層強化学習(DRL)フレームワークを提案する。
通信システムのスケジュール性及びレート制約を満たすとともに、最小消費電力の目標とする。
論文 参考訳(メタデータ) (2023-11-28T15:49:29Z) - Structure-Enhanced DRL for Optimal Transmission Scheduling [43.801422320012286]
本稿では,遠隔推定システムの送信スケジューリング問題に焦点をあてる。
システムの最適スケジューリングのための構造強化型深層強化学習フレームワークを開発した。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
論文 参考訳(メタデータ) (2022-12-24T10:18:38Z) - Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission
Scheduling [47.29474858956844]
マルチセンサリモート推定システムの最適スケジューリングのための構造強化型深部強化学習フレームワークを開発した。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
数値計算の結果,提案したDRLアルゴリズムはトレーニング時間を50%削減し,遠隔推定MSEを10%から25%削減できることがわかった。
論文 参考訳(メタデータ) (2022-11-20T00:13:35Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。