論文の概要: Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications
- arxiv url: http://arxiv.org/abs/2309.10177v1
- Date: Mon, 18 Sep 2023 22:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 17:16:23.609887
- Title: Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications
- Title(参考訳): 動的メタバースアプリケーションのための連続的深層強化学習による自己維持多重アクセス
- Authors: Hamidreza Mazandarani, Masoud Shokrnezhad, Tarik Taleb, and Richard Li
- Abstract要約: Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。
本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
- 参考スコア(独自算出の注目度): 17.436875530809946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Metaverse is a new paradigm that aims to create a virtual environment
consisting of numerous worlds, each of which will offer a different set of
services. To deal with such a dynamic and complex scenario, considering the
stringent quality of service requirements aimed at the 6th generation of
communication systems (6G), one potential approach is to adopt self-sustaining
strategies, which can be realized by employing Adaptive Artificial Intelligence
(Adaptive AI) where models are continually re-trained with new data and
conditions. One aspect of self-sustainability is the management of multiple
access to the frequency spectrum. Although several innovative methods have been
proposed to address this challenge, mostly using Deep Reinforcement Learning
(DRL), the problem of adapting agents to a non-stationary environment has not
yet been precisely addressed. This paper fills in the gap in the current
literature by investigating the problem of multiple access in multi-channel
environments to maximize the throughput of the intelligent agent when the
number of active User Equipments (UEs) may fluctuate over time. To solve the
problem, a Double Deep Q-Learning (DDQL) technique empowered by Continual
Learning (CL) is proposed to overcome the non-stationary situation, while the
environment is unknown. Numerical simulations demonstrate that, compared to
other well-known methods, the CL-DDQL algorithm achieves significantly higher
throughputs with a considerably shorter convergence time in highly dynamic
scenarios.
- Abstract(参考訳): Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するため、第6世代の通信システム(6G)を対象としたサービス要件の厳密な品質を考慮すると、モデルが新しいデータと条件で継続的にトレーニングされるAdaptive Artificial Intelligence(Adaptive AI)を採用することで実現可能な、自己維持戦略を採用することが考えられる。
自己持続性の1つの側面は周波数スペクトルへの多重アクセスの管理である。
この課題に対処するためのいくつかの革新的な手法が提案されているが、主にDeep Reinforcement Learning (DRL) を用いているが、エージェントを非定常環境に適用することの問題は、まだ正確には解決されていない。
本稿では,アクティブユーザ機器(UE)の数が時間とともに変動する場合に,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題を調査し,現在の文献のギャップを埋める。
この問題を解決するために,継続学習(CL)によるDouble Deep Q-Learning(DDQL)手法を提案する。
数値シミュレーションにより、cl-ddqlアルゴリズムは、他のよく知られた手法と比較して、非常に短い収束時間で非常に高いスループットを達成することが示されている。
関連論文リスト
- A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic 6G-Based Applications [14.51946231794179]
本稿では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。
その目的は、$alpha$-fairnessメトリックを使用して、使い勝手のトレードオフを最適化することにある。
Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) 手法を提案する。
論文 参考訳(メタデータ) (2024-01-12T00:32:38Z) - Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming [4.825619788907192]
本稿では,メタラーニングアプローチ(ラーニング・トゥ・ラーン)のレンズを通して制約された問題を解くことによって,非定常環境における安全性を確保するためのユニークな課題について考察する。
まず,複数タスクにまたがるコンベックス制約付きポリシー更新を連続的に採用し,エンドツーエンドの差別化を可能にすることで,制約のあるシナリオにおけるメタラーニングを可能にする。
論文 参考訳(メタデータ) (2023-12-15T21:55:43Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Simultaneously Evolving Deep Reinforcement Learning Models using
Multifactorial Optimization [18.703421169342796]
この研究は、関連する強化学習タスクの解決に向けて、複数のDQLモデルを同時に進化させることのできるフレームワークを提案する。
フレームワークの性能を評価するために、徹底的な実験を行い、議論する。
論文 参考訳(メタデータ) (2020-02-25T10:36:57Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。