論文の概要: Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach
- arxiv url: http://arxiv.org/abs/2501.11921v1
- Date: Tue, 21 Jan 2025 06:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:35.995209
- Title: Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach
- Title(参考訳): 目標指向型送信スケジューリング:統一的なデュアルオン政治とオフ政治アプローチによる構造誘導型DRL
- Authors: Jiazheng Chen, Wanchun Liu,
- Abstract要約: 目標指向スケジューリング問題に対する最適解の構造的特性を導出し,情報化時代(AoI)とチャネル状態を統合する。
そこで本研究では,オンライントレーニングの安定性と非政治手法のサンプル効率を併用したハイブリッドアルゴリズムである,構造誘導型統合二重オンオフポリシーDRL(SUDO-DRL)を提案する。
数値計算の結果,SUDO-DRLはシステム性能を最大45%改善し,コンバージェンス時間を40%削減した。
- 参考スコア(独自算出の注目度): 3.6509749032112753
- License:
- Abstract: Goal-oriented communications prioritize application-driven objectives over data accuracy, enabling intelligent next-generation wireless systems. Efficient scheduling in multi-device, multi-channel systems poses significant challenges due to high-dimensional state and action spaces. We address these challenges by deriving key structural properties of the optimal solution to the goal-oriented scheduling problem, incorporating Age of Information (AoI) and channel states. Specifically, we establish the monotonicity of the optimal state value function (a measure of long-term system performance) w.r.t. channel states and prove its asymptotic convexity w.r.t. AoI states. Additionally, we derive the monotonicity of the optimal policy w.r.t. channel states, advancing the theoretical framework for optimal scheduling. Leveraging these insights, we propose the structure-guided unified dual on-off policy DRL (SUDO-DRL), a hybrid algorithm that combines the stability of on-policy training with the sample efficiency of off-policy methods. Through a novel structural property evaluation framework, SUDO-DRL enables effective and scalable training, addressing the complexities of large-scale systems. Numerical results show SUDO-DRL improves system performance by up to 45% and reduces convergence time by 40% compared to state-of-the-art methods. It also effectively handles scheduling in much larger systems, where off-policy DRL fails and on-policy benchmarks exhibit significant performance loss, demonstrating its scalability and efficacy in goal-oriented communications.
- Abstract(参考訳): ゴール指向通信は、データ精度よりもアプリケーション駆動の目的を優先し、インテリジェントな次世代無線システムを実現する。
マルチデバイス・マルチチャネルシステムにおける効率的なスケジューリングは、高次元の状態と行動空間によって大きな課題を生じさせる。
目標指向スケジューリング問題に対する最適解の鍵となる構造特性を導出し,情報化時代(AoI)とチャネル状態を統合することで,これらの課題に対処する。
具体的には、最適状態値関数 w.r.t.チャネル状態の単調性を確立し、その漸近凸性 w.r.t.AoI 状態を証明する。
さらに、最適なポリシw.r.t.チャネル状態の単調性を導出し、最適なスケジューリングの理論的枠組みを推し進める。
これらの知見を生かして、オンライントレーニングの安定性とオフ政治手法のサンプル効率を結合したハイブリッドアルゴリズムである、構造誘導型統合二重オンオフポリシーDRL(SUDO-DRL)を提案する。
新たな構造特性評価フレームワークを通じて,SUDO-DRLは大規模システムの複雑さに対処し,効果的でスケーラブルなトレーニングを可能にする。
数値計算の結果,SUDO-DRLはシステム性能を最大45%改善し,コンバージェンス時間を40%削減した。
また、オフ・ポリティクスのDRLが失敗し、オン・ポリティクスのベンチマークが大きなパフォーマンス損失を示し、ゴール指向通信におけるスケーラビリティと有効性を示すような、より大規模なシステムでのスケジューリングも効果的に処理する。
関連論文リスト
- Latent feedback control of distributed systems in multiple scenarios through deep learning-based reduced order models [3.5161229331588095]
高次元分散システムの継続的な監視とリアルタイム制御は、望まれる物理的な振る舞いを保証するためにアプリケーションに不可欠である。
完全順序モデルに依存する従来のフィードバック制御設計は、制御計算の遅延のため、これらの要求を満たすことができない。
非線形非侵襲的深層学習に基づく還元順序モデル(DL-ROM)により強化されたリアルタイム閉ループ制御戦略を提案する。
論文 参考訳(メタデータ) (2024-12-13T08:04:21Z) - Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Optimization Theory Based Deep Reinforcement Learning for Resource
Allocation in Ultra-Reliable Wireless Networked Control Systems [10.177917426690701]
本稿では,制御系と通信系の共同設計のための,新しい最適化理論に基づく深層強化学習(DRL)フレームワークを提案する。
通信システムのスケジュール性及びレート制約を満たすとともに、最小消費電力の目標とする。
論文 参考訳(メタデータ) (2023-11-28T15:49:29Z) - Structure-Enhanced DRL for Optimal Transmission Scheduling [43.801422320012286]
本稿では,遠隔推定システムの送信スケジューリング問題に焦点をあてる。
システムの最適スケジューリングのための構造強化型深層強化学習フレームワークを開発した。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
論文 参考訳(メタデータ) (2022-12-24T10:18:38Z) - Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission
Scheduling [47.29474858956844]
マルチセンサリモート推定システムの最適スケジューリングのための構造強化型深部強化学習フレームワークを開発した。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
数値計算の結果,提案したDRLアルゴリズムはトレーニング時間を50%削減し,遠隔推定MSEを10%から25%削減できることがわかった。
論文 参考訳(メタデータ) (2022-11-20T00:13:35Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。