Fugu-MT 論文翻訳(概要): Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks

論文の概要: Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks

arxiv url: http://arxiv.org/abs/2405.11331v1
Date: Sat, 18 May 2024 16:31:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 18:18:48.618662
Title: Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks
Title（参考訳）: URLLC対応Vehicular Networkにおけるエンベロープ更新による汎用多目的強化学習
Authors: Zijiang Yan, Hina Tabassum,
Abstract要約: 我々は,無線ネットワークの選択と自律運転ポリシーを協調的に最適化する,新しい多目的強化学習フレームワークを開発した。提案フレームワークは,車両の運動力学を制御することにより,交通流の最大化と衝突の最小化を目的としている。提案されたポリシーにより、自動運転車は、接続性を改善した安全な運転行動を採用することができる。
参考スコア（独自算出の注目度）: 12.323383132739195
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We develop a novel multi-objective reinforcement learning (MORL) framework to jointly optimize wireless network selection and autonomous driving policies in a multi-band vehicular network operating on conventional sub-6GHz spectrum and Terahertz frequencies. The proposed framework is designed to 1. maximize the traffic flow and 2. minimize collisions by controlling the vehicle's motion dynamics (i.e., speed and acceleration), and enhance the ultra-reliable low-latency communication (URLLC) while minimizing handoffs (HOs). We cast this problem as a multi-objective Markov Decision Process (MOMDP) and develop solutions for both predefined and unknown preferences of the conflicting objectives. Specifically, deep-Q-network and double deep-Q-network-based solutions are developed first that consider scalarizing the transportation and telecommunication rewards using predefined preferences. We then develop a novel envelope MORL solution which develop policies that address multiple objectives with unknown preferences to the agent. While this approach reduces reliance on scalar rewards, policy effectiveness varying with different preferences is a challenge. To address this, we apply a generalized version of the Bellman equation and optimize the convex envelope of multi-objective Q values to learn a unified parametric representation capable of generating optimal policies across all possible preference configurations. Following an initial learning phase, our agent can execute optimal policies under any specified preference or infer preferences from minimal data samples.Numerical results validate the efficacy of the envelope-based MORL solution and demonstrate interesting insights related to the inter-dependency of vehicle motion dynamics, HOs, and the communication data rate. The proposed policies enable autonomous vehicles to adopt safe driving behaviors with improved connectivity.
Abstract（参考訳）: 我々は,従来のサブ6GHz帯とテラヘルツ周波数で動作するマルチバンド車両ネットワークにおいて,無線ネットワーク選択と自律運転ポリシーを協調的に最適化する,新しい多目的強化学習(MORL)フレームワークを開発した。提案するフレームワークは設計されている一交通の流れを最大化し 2. 車両の運動力学(速度と加速度)を制御し衝突を最小限に抑え, ハンドオフ(HO)を最小化しながら超信頼性の低遅延通信(URLLC)を強化する。我々はこの問題を多目的マルコフ決定プロセス(MOMDP)として論じ、対立する目的の事前定義と未知の選好のソリューションを開発した。具体的には、事前に定義された嗜好を用いて、輸送と通信の報酬をスキャラライズすることを検討するディープQ-ネットワークとダブルQ-ネットワークベースのソリューションを開発した。次に、エージェントに未知の嗜好を持つ複数の目的に対処するポリシーを開発するための、新しいエンベロープMORLソリューションを開発する。このアプローチはスカラー報酬への依存を減らすが、政策の有効性は好みによって異なる。これを解決するために、ベルマン方程式の一般化版を適用し、多目的Q値の凸包絡を最適化し、あらゆる可能な選好構成に対して最適なポリシーを生成することができる統一パラメトリック表現を学習する。最初の学習段階を経て,本エージェントは,最小限のデータサンプルから特定の選好や推論の選好の下で最適なポリシーを実行することができ,エンベロープベースのMORLソリューションの有効性を検証し,車両運動力学,HO,通信データ率の相互依存性に関する興味深い洞察を実証する。提案されたポリシーにより、自動運転車は、接続性を改善した安全な運転行動を採用することができる。

関連論文リスト

Aerial Reliable Collaborative Communications for Terrestrial Mobile Users via Evolutionary Multi-Objective Deep Reinforcement Learning [59.660724802286865]
無人航空機(UAV)は、地上通信を改善するための航空基地局(BS)として登場した。この作業では、UAV対応仮想アンテナアレイによる協調ビームフォーミングを使用して、UAVから地上モバイルユーザへの伝送性能を向上させる。
論文参考訳（メタデータ） (2025-02-09T09:15:47Z)
Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。 STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文参考訳（メタデータ） (2024-06-19T07:17:04Z)
Collaborative Ground-Space Communications via Evolutionary Multi-objective Deep Reinforcement Learning [113.48727062141764]
地中直接通信を実現するために,分散コラボレーティブビームフォーミング(DCB)に基づくアップリンク通信パラダイムを提案する。 DCBは、低軌道(LEO)衛星と効率的な直接接続を確立することができない端末を分散アンテナとして扱う。本稿では,進化的多目的深層強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-11T03:13:02Z)
Scaling Pareto-Efficient Decision Making Via Offline Multi-Objective RL [22.468486569700236]
多目的強化学習(MORL)の目的は、複数の競合対象を同時に最適化するポリシーを学ぶことである。我々は、オフラインMORLのための新しいデータ駆動型セットアップを提案し、そこで、好みに依存しないポリシーエージェントを学習したい。 PEDAはオフラインのMORLアルゴリズムのファミリーであり、新しい優先順位と条件付きポリシーを通じて決定変換器を構築し拡張する。
論文参考訳（メタデータ） (2023-04-30T20:15:26Z)
Efficient Domain Coverage for Vehicles with Second-Order Dynamics via Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文参考訳（メタデータ） (2022-11-11T01:59:12Z)
PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。 PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文参考訳（メタデータ） (2022-08-16T19:23:02Z)
Reinforcement Learning for Joint V2I Network Selection and Autonomous Driving Policies [14.518558523319518]
自動運転車(AV)の信頼性向上に向けたV2I通信の重要性が高まっている道路衝突を最小限に抑えるため,AVのネットワーク選択と運転ポリシーを同時に最適化することが重要である。我々は,効率的なネットワーク選択と自律運転ポリシーを特徴付ける強化学習フレームワークを開発した。
論文参考訳（メタデータ） (2022-08-03T04:33:02Z)
Fully Decentralized Model-based Policy Optimization for Networked Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文参考訳（メタデータ） (2022-07-13T23:52:14Z)
AI-aided Traffic Control Scheme for M2M Communications in the Internet of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文参考訳（メタデータ） (2022-03-05T10:54:05Z)
Low-Latency Federated Learning over Wireless Channels with Differential Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文参考訳（メタデータ） (2021-06-20T13:51:18Z)
Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文参考訳（メタデータ） (2020-12-25T07:08:50Z)
Multi-path Neural Networks for On-device Multi-domain Visual Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文参考訳（メタデータ） (2020-10-10T05:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。