論文の概要: Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks
- arxiv url: http://arxiv.org/abs/2603.08931v1
- Date: Mon, 09 Mar 2026 20:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.827934
- Title: Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks
- Title(参考訳): ディジタル双極性ネットワークを用いた強化学習の最適化
- Authors: Hanzhi Yu, Hasan Farooq, Julien Forgeat, Shruti Bothe, Kristijonas Cyras, Md Moin Uddin Chowdhury, Mingzhe Chen,
- Abstract要約: 本稿では,新しいデジタルネットワークツイン(DNT)を用いたディープラーニングモデルトレーニングフレームワークについて検討する。
特に,基地局(BS)が複数のアンテナを用いて複数の移動体ユーザーに提供する物理ネットワークを考える。
BSは、全ユーザのデータレートを最適化するために、アンテナの傾き角を調整する必要がある。
- 参考スコア(独自算出の注目度): 16.876670229569715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate a novel digital network twin (DNT) assisted deep learning (DL) model training framework. In particular, we consider a physical network where a base station (BS) uses several antennas to serve multiple mobile users, and a DNT that is a virtual representation of the physical network. The BS must adjust its antenna tilt angles to optimize the data rates of all users. Due to user mobility, the BS may not be able to accurately track network dynamics such as wireless channels and user mobilities. Hence, a reinforcement learning (RL) approach is used to dynamically adjust the antenna tilt angles. To train the RL, we can use data collected from the physical network and the DNT. The data collected from the physical network is more accurate but incurs more communication overhead compared to the data collected from the DNT. Therefore, it is necessary to determine the ratio of data collected from the physical network and the DNT to improve the training of the RL model. We formulate this problem as an optimization problem whose goal is to jointly optimize the tilt angle adjustment policy and the data collection strategy, aiming to maximize the data rates of all users while constraining the time delay introduced by collecting data from the physical network. To solve this problem, we propose a hierarchical RL framework that integrates robust adversarial loss and proximal policy optimization (PPO). Simulation results show that our proposed method reduces the physical network data collection delay by up to 28.01% and 1x compared to a hierarchical RL that uses vanilla PPO as the first level RL, and the baseline that uses robust-RL at the first level and selects the data collection ratio randomly.
- Abstract(参考訳): 本稿では,新しいデジタルネットワークツイン(DNT)を用いたディープラーニングモデルトレーニングフレームワークについて検討する。
特に,基地局(BS)が複数の移動体ユーザに対して複数のアンテナを使用する物理ネットワークと,物理ネットワークの仮想表現であるDNTを考える。
BSは、全ユーザのデータレートを最適化するために、アンテナの傾き角を調整する必要がある。
ユーザモビリティのため、BSは無線チャネルやユーザモビリティといったネットワークのダイナミクスを正確に追跡できない可能性がある。
したがって、アンテナ傾斜角を動的に調整するために強化学習(RL)アプローチを用いる。
RLのトレーニングには、物理ネットワークとDNTから収集したデータを使用することができる。
物理ネットワークから収集したデータはより正確であるが、DNTから収集したデータよりも通信オーバーヘッドが大きい。
したがって、RLモデルのトレーニングを改善するためには、物理ネットワークとDNTから収集したデータの比率を決定する必要がある。
本研究では,物理ネットワークからデータ収集によって生じる遅延を抑えつつ,全ユーザのデータレートを最大化することを目的として,傾き角調整ポリシーとデータ収集戦略を共同で最適化することを目的とした最適化問題として,この問題を定式化する。
この問題を解決するために,ロバストな対向損失と近似ポリシー最適化(PPO)を統合した階層的RLフレームワークを提案する。
シミュレーションの結果,提案手法は,バニラPPOを第1のレベルRLとして使用する階層RLと,第1のレベルでロバストRLを用いてデータ収集比をランダムに選択するベースラインと比較して,物理ネットワークデータの収集遅延を最大28.01%と1倍に削減することを示した。
関連論文リスト
- ANCRe: Adaptive Neural Connection Reassignment for Efficient Depth Scaling [57.91760520589592]
ネットワークの深度を拡大することは、現代の基礎モデルの成功の背後にある中心的な要因である。
本稿では,ニューラルネットワークの奥行き,すなわち残差接続の既定メカニズムを再考する。
我々は、データから残余接続性をパラメータ化し、学習する原則的かつ軽量なフレームワークである、適応型ニューラルネットワーク再割り当て(ANCRe)を導入する。
論文 参考訳(メタデータ) (2026-02-09T18:54:18Z) - Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。
9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。
我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文 参考訳(メタデータ) (2025-10-07T22:30:59Z) - Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals [49.17123504516502]
大規模言語モデル(LLM)のためのRFTパラダイムは、均一なデータサンプリングの下で同じクエリが冗長に露出するため、効率が悪い。
グラディエント駆動型アングルインフォームドナビゲーションRLフレームワークを提案する。
モデル固有の角度集中信号を利用することで、GAIN-RLは各エポックにおけるトレーニングデータを動的に選択し、一貫したインパクトのある勾配更新を確実にする。
論文 参考訳(メタデータ) (2025-06-02T21:40:38Z) - Large Vision Model-Enhanced Digital Twin with Deep Reinforcement Learning for User Association and Load Balancing in Dynamic Wireless Networks [17.041443813376546]
本稿では,無線ネットワークのための大型ビジョンモデル (LVM) 拡張ディジタルツイン (DT) を提案する。
本稿では,動的ユーザ数,分布,移動パターンを有するネットワークにおけるユーザアソシエーションとロードバランシングのための並列DRL法を提案する。
数値計算の結果,LVM強化DTは実環境とほぼ同等の訓練効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-10T04:54:48Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Digital Twin-Enhanced Deep Reinforcement Learning for Resource
Management in Networks Slicing [46.65030115953947]
本稿では,デジタルツインと強化学習エージェントからなるフレームワークを提案する。
具体的には、歴史的データとニューラルネットワークを用いて、実環境の状態変動則をシミュレートするデジタルツインモデルを構築することを提案する。
また、このフレームワークをオフラインで強化学習に拡張し、歴史的データのみに基づいたインテリジェントな意思決定にソリューションを利用できるようにします。
論文 参考訳(メタデータ) (2023-11-28T15:25:14Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。