Fugu-MT 論文翻訳(概要): Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach

論文の概要: Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach

arxiv url: http://arxiv.org/abs/2501.11921v1
Date: Tue, 21 Jan 2025 06:49:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.590041
Title: Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach
Title（参考訳）: 目標指向型送信スケジューリング:統一的なデュアルオン政治とオフ政治アプローチによる構造誘導型DRL
Authors: Jiazheng Chen, Wanchun Liu,
Abstract要約: 目標指向スケジューリング問題に対する最適解の構造的特性を導出し,情報化時代(AoI)とチャネル状態を統合する。そこで本研究では,オンライントレーニングの安定性と非政治手法のサンプル効率を併用したハイブリッドアルゴリズムである,構造誘導型統合二重オンオフポリシーDRL(SUDO-DRL)を提案する。数値計算の結果,SUDO-DRLはシステム性能を最大45%改善し,コンバージェンス時間を40%削減した。
参考スコア（独自算出の注目度）: 3.6509749032112753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Goal-oriented communications prioritize application-driven objectives over data accuracy, enabling intelligent next-generation wireless systems. Efficient scheduling in multi-device, multi-channel systems poses significant challenges due to high-dimensional state and action spaces. We address these challenges by deriving key structural properties of the optimal solution to the goal-oriented scheduling problem, incorporating Age of Information (AoI) and channel states. Specifically, we establish the monotonicity of the optimal state value function (a measure of long-term system performance) w.r.t. channel states and prove its asymptotic convexity w.r.t. AoI states. Additionally, we derive the monotonicity of the optimal policy w.r.t. channel states, advancing the theoretical framework for optimal scheduling. Leveraging these insights, we propose the structure-guided unified dual on-off policy DRL (SUDO-DRL), a hybrid algorithm that combines the stability of on-policy training with the sample efficiency of off-policy methods. Through a novel structural property evaluation framework, SUDO-DRL enables effective and scalable training, addressing the complexities of large-scale systems. Numerical results show SUDO-DRL improves system performance by up to 45% and reduces convergence time by 40% compared to state-of-the-art methods. It also effectively handles scheduling in much larger systems, where off-policy DRL fails and on-policy benchmarks exhibit significant performance loss, demonstrating its scalability and efficacy in goal-oriented communications.
Abstract（参考訳）: ゴール指向通信は、データ精度よりもアプリケーション駆動の目的を優先し、インテリジェントな次世代無線システムを実現する。マルチデバイス・マルチチャネルシステムにおける効率的なスケジューリングは、高次元の状態と行動空間によって大きな課題を生じさせる。目標指向スケジューリング問題に対する最適解の鍵となる構造特性を導出し,情報化時代(AoI)とチャネル状態を統合することで,これらの課題に対処する。具体的には、最適状態値関数 w.r.t.チャネル状態の単調性を確立し、その漸近凸性 w.r.t.AoI 状態を証明する。さらに、最適なポリシw.r.t.チャネル状態の単調性を導出し、最適なスケジューリングの理論的枠組みを推し進める。これらの知見を生かして、オンライントレーニングの安定性とオフ政治手法のサンプル効率を結合したハイブリッドアルゴリズムである、構造誘導型統合二重オンオフポリシーDRL(SUDO-DRL)を提案する。新たな構造特性評価フレームワークを通じて,SUDO-DRLは大規模システムの複雑さに対処し,効果的でスケーラブルなトレーニングを可能にする。数値計算の結果,SUDO-DRLはシステム性能を最大45%改善し,コンバージェンス時間を40%削減した。また、オフ・ポリティクスのDRLが失敗し、オン・ポリティクスのベンチマークが大きなパフォーマンス損失を示し、ゴール指向通信におけるスケーラビリティと有効性を示すような、より大規模なシステムでのスケジューリングも効果的に処理する。

関連論文リスト

AoI-Aware Task Offloading and Transmission Optimization for Industrial IoT Networks: A Branching Deep Reinforcement Learning Approach [43.261887758877386]
産業用モノのインターネット(Industrial Internet of Things, IIoT)では、無線ネットワーク上で大量のデータを頻繁に送信することは、厳しいタイムライン要件を満たす必要がある。 Information (AoI)-aware multi-base station (BS) real-time monitoring framework to support extensive IIoT deployments。
論文参考訳（メタデータ） (2025-10-18T09:14:39Z)
Intelligent Optimization of Wireless Access Point Deployment for Communication-Based Train Control Systems Using Deep Reinforcement Learning [12.256904916760796]
都市鉄道システムは、通信ベースの列車制御(CBTC)システムにますます依存している。トンネル内のアクセスポイント(AP)の最適配置は、堅牢な無線通信に不可欠である。経験的モデルに基づく最適化アルゴリズムのような従来の手法は、過剰な測定要求によって妨げられている。
論文参考訳（メタデータ） (2025-09-29T14:07:44Z)
Joint Channel Estimation and Computation Offloading in Fluid Antenna-assisted MEC Networks [81.36647816787713]
チャネル推定の遅延を最小限に抑えるためのFA支援オフロードフレームワークを提案する。提案方式は,効率的な通信を行う場合の精度を大幅に低下させることを示す。
論文参考訳（メタデータ） (2025-09-16T08:48:44Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
Latent feedback control of distributed systems in multiple scenarios through deep learning-based reduced order models [3.5161229331588095]
高次元分散システムの継続的な監視とリアルタイム制御は、望まれる物理的な振る舞いを保証するためにアプリケーションに不可欠である。完全順序モデルに依存する従来のフィードバック制御設計は、制御計算の遅延のため、これらの要求を満たすことができない。非線形非侵襲的深層学習に基づく還元順序モデル(DL-ROM)により強化されたリアルタイム閉ループ制御戦略を提案する。
論文参考訳（メタデータ） (2024-12-13T08:04:21Z)
Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文参考訳（メタデータ） (2024-07-18T23:55:07Z)
Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Optimization Theory Based Deep Reinforcement Learning for Resource Allocation in Ultra-Reliable Wireless Networked Control Systems [10.177917426690701]
本稿では,制御系と通信系の共同設計のための,新しい最適化理論に基づく深層強化学習(DRL)フレームワークを提案する。通信システムのスケジュール性及びレート制約を満たすとともに、最小消費電力の目標とする。
論文参考訳（メタデータ） (2023-11-28T15:49:29Z)
Structure-Enhanced DRL for Optimal Transmission Scheduling [43.801422320012286]
本稿では,遠隔推定システムの送信スケジューリング問題に焦点をあてる。システムの最適スケジューリングのための構造強化型深層強化学習フレームワークを開発した。特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
論文参考訳（メタデータ） (2022-12-24T10:18:38Z)
Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission Scheduling [47.29474858956844]
マルチセンサリモート推定システムの最適スケジューリングのための構造強化型深部強化学習フレームワークを開発した。特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。数値計算の結果,提案したDRLアルゴリズムはトレーニング時間を50%削減し,遠隔推定MSEを10%から25%削減できることがわかった。
論文参考訳（メタデータ） (2022-11-20T00:13:35Z)
Age of Semantics in Cooperative Communications: To Expedite Simulation Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文参考訳（メタデータ） (2022-09-19T11:55:28Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Online Reinforcement Learning Control by Direct Heuristic Dynamic Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文参考訳（メタデータ） (2020-06-16T05:51:25Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。