論文の概要: Sim2real for Reinforcement Learning Driven Next Generation Networks
- arxiv url: http://arxiv.org/abs/2206.03846v1
- Date: Wed, 8 Jun 2022 12:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 15:05:40.281175
- Title: Sim2real for Reinforcement Learning Driven Next Generation Networks
- Title(参考訳): 強化学習駆動次世代ネットワークのためのSim2real
- Authors: Peizheng Li, Jonathan Thomas, Xiaoyang Wang, Hakan Erdol, Abdelrahim
Ahmad, Rui Inacio, Shipra Kapoor, Arjun Parekh, Angela Doufexi, Arman
Shojaeifard, Robert Piechocki
- Abstract要約: Reinforcement Learning (RL) モデルは、RAN関連多目的最適化問題の解決の鍵と見なされている。
主な理由の1つはシミュレーションと実環境の間のモデリングギャップであり、RLエージェントは実環境に不適合なシミュレーションによって訓練される可能性がある。
この記事では、Open RAN(O-RAN)のコンテキストにおけるsim2realチャレンジについて述べます。
実環境におけるシミュレーション訓練されたRLモデルの障害モードを実証し、実証するために、いくつかのユースケースが提示される。
- 参考スコア(独自算出の注目度): 4.29590751118341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The next generation of networks will actively embrace artificial intelligence
(AI) and machine learning (ML) technologies for automation networks and optimal
network operation strategies. The emerging network structure represented by
Open RAN (O-RAN) conforms to this trend, and the radio intelligent controller
(RIC) at the centre of its specification serves as an ML applications host.
Various ML models, especially Reinforcement Learning (RL) models, are regarded
as the key to solving RAN-related multi-objective optimization problems.
However, it should be recognized that most of the current RL successes are
confined to abstract and simplified simulation environments, which may not
directly translate to high performance in complex real environments. One of the
main reasons is the modelling gap between the simulation and the real
environment, which could make the RL agent trained by simulation ill-equipped
for the real environment. This issue is termed as the sim2real gap. This
article brings to the fore the sim2real challenge within the context of O-RAN.
Specifically, it emphasizes the characteristics, and benefits that the digital
twins (DT) could have as a place for model development and verification.
Several use cases are presented to exemplify and demonstrate failure modes of
the simulations trained RL model in real environments. The effectiveness of DT
in assisting the development of RL algorithms is discussed. Then the current
state of the art learning-based methods commonly used to overcome the sim2real
challenge are presented. Finally, the development and deployment concerns for
the RL applications realisation in O-RAN are discussed from the view of the
potential issues like data interaction, environment bottlenecks, and algorithm
design.
- Abstract(参考訳): 次世代のネットワークは、自動化ネットワークと最適なネットワーク運用戦略のための人工知能(AI)と機械学習(ML)技術を積極的に採用する。
Open RAN(O-RAN)で表される新しいネットワーク構造はこの傾向に対応しており、その仕様の中心にある無線インテリジェントコントローラ(RIC)はMLアプリケーションホストとして機能している。
様々なMLモデル、特に強化学習(RL)モデルは、RAN関連多目的最適化問題の解決の鍵と見なされている。
しかし、現在のRLの成功のほとんどは抽象的で単純化されたシミュレーション環境に限られており、複雑な実環境では直接的に高性能に変換されない可能性がある。
主な理由の1つはシミュレーションと実環境の間のモデリングギャップであり、RLエージェントは実環境に不適合なシミュレーションによって訓練される可能性がある。
この問題はsim2real gapと呼ばれる。
この記事では、O-RANのコンテキストにおけるsim2realチャレンジについて述べます。
具体的には、デジタルツイン(DT)がモデル開発と検証の場として持つことのできる特性とメリットを強調します。
実環境におけるシミュレーション訓練rlモデルの故障モードの例と実例を示すために,いくつかのユースケースが提示されている。
RLアルゴリズムの開発支援におけるDTの有効性について論じる。
次に、sim2realチャレンジを克服するために一般的に使用されるアート学習ベース手法の現状を示す。
最後に,データインタラクションや環境ボトルネック,アルゴリズム設計といった潜在的な問題の観点から,o-ranで実現されるrlアプリケーションの開発とデプロイメントに関する懸念について論じる。
関連論文リスト
- Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Facilitating Sim-to-real by Intrinsic Stochasticity of Real-Time
Simulation in Reinforcement Learning for Robot Manipulation [1.6686307101054858]
市販シミュレーションソフトウェアにおけるリアルタイムシミュレーション(RT-IS)の本質性について検討する。
RT-ISは、ランダム化を少なくし、タスク依存ではなく、従来のドメインランダム化駆動エージェントよりも優れた一般化性を実現する。
論文 参考訳(メタデータ) (2023-04-12T12:15:31Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Sim-Env: Decoupling OpenAI Gym Environments from Simulation Models [0.0]
強化学習(RL)は、AI研究の最も活発な分野の1つです。
開発方法論はまだ遅れており、RLアプリケーションの開発を促進するための標準APIが不足している。
多目的エージェントベースのモデルと派生した単一目的強化学習環境の分離開発と保守のためのワークフローとツールを提示する。
論文 参考訳(メタデータ) (2021-02-19T09:25:21Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Learning Centric Wireless Resource Allocation for Edge Computing:
Algorithm and Experiment [15.577056429740951]
Edge Intelligenceは、センサー、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。
既存の方法は2つの重要な事実を無視している: 1) 異なるモデルがトレーニングデータに不均一な要求を持っている; 2) シミュレーション環境と実環境との間にはミスマッチがある。
本稿では,複数のタスクの最悪の学習性能を最大化する学習中心の無線リソース割り当て方式を提案する。
論文 参考訳(メタデータ) (2020-10-29T06:20:40Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。