論文の概要: Non-orthogonal Age-Optimal Information Dissemination in Vehicular
Networks: A Meta Multi-Objective Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2402.12260v1
- Date: Thu, 15 Feb 2024 16:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:33:07.584298
- Title: Non-orthogonal Age-Optimal Information Dissemination in Vehicular
Networks: A Meta Multi-Objective Reinforcement Learning Approach
- Title(参考訳): 垂直ネットワークにおける非直交年齢最適情報拡散:メタ多目的強化学習アプローチ
- Authors: A. A. Habob, H. Tabassum, O. Waqar
- Abstract要約: 道路側ユニット(RSU)は、車両に物理プロセスのセットに関するタイムリーな更新を提供する。
定式化問題は多目的混合整数非線形計画問題である。
我々は,各最適化サブプロブレムを解くために,DQN-Deep Deterministic Policy gradient (DDPG)モデルを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers minimizing the age-of-information (AoI) and transmit
power consumption in a vehicular network, where a roadside unit (RSU) provides
timely updates about a set of physical processes to vehicles. We consider
non-orthogonal multi-modal information dissemination, which is based on
superposed message transmission from RSU and successive interference
cancellation (SIC) at vehicles. The formulated problem is a multi-objective
mixed-integer nonlinear programming problem; thus, a Pareto-optimal front is
very challenging to obtain. First, we leverage the weighted-sum approach to
decompose the multi-objective problem into a set of multiple single-objective
sub-problems corresponding to each predefined objective preference weight.
Then, we develop a hybrid deep Q-network (DQN)-deep deterministic policy
gradient (DDPG) model to solve each optimization sub-problem respective to
predefined objective-preference weight. The DQN optimizes the decoding order,
while the DDPG solves the continuous power allocation. The model needs to be
retrained for each sub-problem. We then present a two-stage
meta-multi-objective reinforcement learning solution to estimate the Pareto
front with a few fine-tuning update steps without retraining the model for each
sub-problem. Simulation results illustrate the efficacy of the proposed
solutions compared to the existing benchmarks and that the meta-multi-objective
reinforcement learning model estimates a high-quality Pareto frontier with
reduced training time.
- Abstract(参考訳): 本稿では,道路側ユニット(RSU)が車両への物理プロセスのタイムリーな更新を行う車載ネットワークにおいて,情報化時期(AoI)の最小化と消費電力の伝達について考察する。
rsuからの重畳メッセージ送信と車両における連続干渉キャンセル(sic)に基づく非直交多モード情報伝達について考察する。
定式化問題は多目的混合整数非線形計画問題であり、パレート最適面を得るのは非常に困難である。
まず,重み付き重み付き重み付き重み付きアプローチを用いて,多目的問題に対して,事前定義された目標選好重みに対応する複数の単目的部分問題の集合を分解する。
そこで我々は,各最適化サブプロブレムをあらかじめ定義された目的条件重みに応じて解くために,DQN-Deep Deterministic Policy gradient (DDPG)モデルを構築した。
DQNは復号順序を最適化し、DDPGは連続的な電力割り当てを解決する。
モデルはサブプロブレムごとに再訓練する必要がある。
次に,2段階のメタマルチオブジェクト強化学習ソリューションを提案し,各サブプロブレムのモデルを再学習することなく,いくつかの微調整された更新ステップでParetoフロントを推定する。
シミュレーションの結果,提案手法の有効性を既存ベンチマークと比較し,メタ多目的強化学習モデルでは,トレーニング時間を短縮した高品質なパレートフロンティアを推定した。
関連論文リスト
- Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment [48.773648757361975]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Efficient Meta Neural Heuristic for Multi-Objective Combinatorial
Optimization [35.09656455088854]
本稿では,多目的最適化問題を解くために,効率的なメタニューラルベクトル(EMNH)を提案する。
EMNHは、ソリューションの品質と学習効率の点で最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2023-10-22T08:59:02Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Applying Ising Machines to Multi-objective QUBOs [0.0]
2つ以上の目的を持つ問題に対してスカラー化重みを導出する適応的手法を拡張した。
3 と 4 つの目的を持つマルチオブジェクト非制約バイナリ二次プログラミング (mUBQP) インスタンス上での最高の性能を示す。
論文 参考訳(メタデータ) (2023-05-19T12:53:48Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Pareto Conditioned Networks [1.7188280334580197]
本稿では,すべての非支配的ポリシーを包含するために,単一ニューラルネットワークを用いる手法を提案する。
PCNは過去の移行とエピソードのリターンを関連付け、ネットワークをトレーニングする。
提案手法は教師付き方式で学習することで安定しており,移動目標問題を回避することができる。
論文 参考訳(メタデータ) (2022-04-11T12:09:51Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction [94.25865526414717]
本稿では,事前に訓練されたヒトメッシュ再構築モデルをドメイン外ストリーミングビデオに適応させるという新たな問題を検討する。
重みプローブと重み更新の2つのステップに全体多対象の最適化プロセスを分割するBilevel Online Adaptationを提案します。
BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-03-30T15:47:58Z) - MODRL/D-AM: Multiobjective Deep Reinforcement Learning Algorithm Using
Decomposition and Attention Model for Multiobjective Optimization [15.235261981563523]
本稿では,多目的最適化問題を解くための多目的深部強化学習法を提案する。
本手法では,各サブプロブレムをアテンションモデルにより解き,入力ノードの構造的特徴とノード的特徴を活用できる。
論文 参考訳(メタデータ) (2020-02-13T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。