論文の概要: Non-orthogonal Age-Optimal Information Dissemination in Vehicular
Networks: A Meta Multi-Objective Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2402.12260v1
- Date: Thu, 15 Feb 2024 16:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:33:07.584298
- Title: Non-orthogonal Age-Optimal Information Dissemination in Vehicular
Networks: A Meta Multi-Objective Reinforcement Learning Approach
- Title(参考訳): 垂直ネットワークにおける非直交年齢最適情報拡散:メタ多目的強化学習アプローチ
- Authors: A. A. Habob, H. Tabassum, O. Waqar
- Abstract要約: 道路側ユニット(RSU)は、車両に物理プロセスのセットに関するタイムリーな更新を提供する。
定式化問題は多目的混合整数非線形計画問題である。
我々は,各最適化サブプロブレムを解くために,DQN-Deep Deterministic Policy gradient (DDPG)モデルを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers minimizing the age-of-information (AoI) and transmit
power consumption in a vehicular network, where a roadside unit (RSU) provides
timely updates about a set of physical processes to vehicles. We consider
non-orthogonal multi-modal information dissemination, which is based on
superposed message transmission from RSU and successive interference
cancellation (SIC) at vehicles. The formulated problem is a multi-objective
mixed-integer nonlinear programming problem; thus, a Pareto-optimal front is
very challenging to obtain. First, we leverage the weighted-sum approach to
decompose the multi-objective problem into a set of multiple single-objective
sub-problems corresponding to each predefined objective preference weight.
Then, we develop a hybrid deep Q-network (DQN)-deep deterministic policy
gradient (DDPG) model to solve each optimization sub-problem respective to
predefined objective-preference weight. The DQN optimizes the decoding order,
while the DDPG solves the continuous power allocation. The model needs to be
retrained for each sub-problem. We then present a two-stage
meta-multi-objective reinforcement learning solution to estimate the Pareto
front with a few fine-tuning update steps without retraining the model for each
sub-problem. Simulation results illustrate the efficacy of the proposed
solutions compared to the existing benchmarks and that the meta-multi-objective
reinforcement learning model estimates a high-quality Pareto frontier with
reduced training time.
- Abstract(参考訳): 本稿では,道路側ユニット(RSU)が車両への物理プロセスのタイムリーな更新を行う車載ネットワークにおいて,情報化時期(AoI)の最小化と消費電力の伝達について考察する。
rsuからの重畳メッセージ送信と車両における連続干渉キャンセル(sic)に基づく非直交多モード情報伝達について考察する。
定式化問題は多目的混合整数非線形計画問題であり、パレート最適面を得るのは非常に困難である。
まず,重み付き重み付き重み付き重み付きアプローチを用いて,多目的問題に対して,事前定義された目標選好重みに対応する複数の単目的部分問題の集合を分解する。
そこで我々は,各最適化サブプロブレムをあらかじめ定義された目的条件重みに応じて解くために,DQN-Deep Deterministic Policy gradient (DDPG)モデルを構築した。
DQNは復号順序を最適化し、DDPGは連続的な電力割り当てを解決する。
モデルはサブプロブレムごとに再訓練する必要がある。
次に,2段階のメタマルチオブジェクト強化学習ソリューションを提案し,各サブプロブレムのモデルを再学習することなく,いくつかの微調整された更新ステップでParetoフロントを推定する。
シミュレーションの結果,提案手法の有効性を既存ベンチマークと比較し,メタ多目的強化学習モデルでは,トレーニング時間を短縮した高品質なパレートフロンティアを推定した。
関連論文リスト
- Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Efficient Meta Neural Heuristic for Multi-Objective Combinatorial
Optimization [35.09656455088854]
本稿では,多目的最適化問題を解くために,効率的なメタニューラルベクトル(EMNH)を提案する。
EMNHは、ソリューションの品質と学習効率の点で最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2023-10-22T08:59:02Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Applying Ising Machines to Multi-objective QUBOs [0.0]
2つ以上の目的を持つ問題に対してスカラー化重みを導出する適応的手法を拡張した。
3 と 4 つの目的を持つマルチオブジェクト非制約バイナリ二次プログラミング (mUBQP) インスタンス上での最高の性能を示す。
論文 参考訳(メタデータ) (2023-05-19T12:53:48Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Pareto Conditioned Networks [1.7188280334580197]
本稿では,すべての非支配的ポリシーを包含するために,単一ニューラルネットワークを用いる手法を提案する。
PCNは過去の移行とエピソードのリターンを関連付け、ネットワークをトレーニングする。
提案手法は教師付き方式で学習することで安定しており,移動目標問題を回避することができる。
論文 参考訳(メタデータ) (2022-04-11T12:09:51Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - MODRL/D-AM: Multiobjective Deep Reinforcement Learning Algorithm Using
Decomposition and Attention Model for Multiobjective Optimization [15.235261981563523]
本稿では,多目的最適化問題を解くための多目的深部強化学習法を提案する。
本手法では,各サブプロブレムをアテンションモデルにより解き,入力ノードの構造的特徴とノード的特徴を活用できる。
論文 参考訳(メタデータ) (2020-02-13T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。