論文の概要: Practical Policy Distillation for Reinforcement Learning in Radio Access Networks
- arxiv url: http://arxiv.org/abs/2511.06563v1
- Date: Sun, 09 Nov 2025 22:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.002655
- Title: Practical Policy Distillation for Reinforcement Learning in Radio Access Networks
- Title(参考訳): 無線アクセスネットワークにおける強化学習のための実践的政策蒸留
- Authors: Sara Khosravi, Burak Demirel, Linghui Zhou, Javier Rasines, Pablo Soldati,
- Abstract要約: 重要ながしばしば見落とされがちな障壁は、RANベースバンドハードウェアの計算とメモリの制限にある。
本稿では,強化学習に基づくリンク適応タスクの文脈における政策蒸留について検討する。
- 参考スコア(独自算出の注目度): 1.0004172390335917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adopting artificial intelligence (AI) in radio access networks (RANs) presents several challenges, including limited availability of link-level measurements (e.g., CQI reports), stringent real-time processing constraints (e.g., sub-1 ms per TTI), and network heterogeneity (different spectrum bands, cell types, and vendor equipment). A critical yet often overlooked barrier lies in the computational and memory limitations of RAN baseband hardware, particularly in legacy 4th Generation (4G) systems, which typically lack on-chip neural accelerators. As a result, only lightweight AI models (under 1 Mb and sub-100~\mu s inference time) can be effectively deployed, limiting both their performance and applicability. However, achieving strong generalization across diverse network conditions often requires large-scale models with substantial resource demands. To address this trade-off, this paper investigates policy distillation in the context of a reinforcement learning-based link adaptation task. We explore two strategies: single-policy distillation, where a scenario-agnostic teacher model is compressed into one generalized student model; and multi-policy distillation, where multiple scenario-specific teachers are consolidated into a single generalist student. Experimental evaluations in a high-fidelity, 5th Generation (5G)-compliant simulator demonstrate that both strategies produce compact student models that preserve the teachers' generalization capabilities while complying with the computational and memory limitations of existing RAN hardware.
- Abstract(参考訳): RAN(Radio Access Network)における人工知能(AI)の採用は、リンクレベルの測定(例えば、CQIレポート)、厳密なリアルタイム処理制約(例えば、TTI当たりのサブ-1 ms)、ネットワークの不均一性(異なるスペクトル帯域、セルタイプ、ベンダー機器)など、いくつかの課題を提示している。
特にレガシな第4世代(4G)システムでは、通常はオンチップのニューラルアクセラレータが欠落している。
その結果、軽量なAIモデル(1 Mbとサブ100~\muのs推論時間)のみが効果的にデプロイでき、パフォーマンスと適用性の両方を制限できる。
しかし、様々なネットワーク条件にまたがる強力な一般化を実現するには、かなりのリソースを必要とする大規模なモデルが必要となることが多い。
本稿では,このトレードオフに対処するため,強化学習に基づくリンク適応タスクの文脈における政策蒸留について検討する。
シナリオに依存しない教師モデルを1つの一般化された学生モデルに圧縮するシングルポリス蒸留と、シナリオ固有の教師を1つのジェネラリストの学生に集約するマルチポリス蒸留の2つの戦略を検討する。
高忠実度第5世代(5G)準拠シミュレータでの実験評価を行った結果,既存のRANハードウェアの計算・メモリ制限に適合しながら,教師の一般化能力を維持するコンパクトな学生モデルが得られた。
関連論文リスト
- MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - DaCapo: Accelerating Continuous Learning in Autonomous Systems for Video Analytics [4.962007210373803]
本稿では,自律型システムによる推論,ラベリング,トレーニングの同時実行を可能にする,継続的学習のためのハードウェアアルゴリズムであるDaCapoを提案する。
DaCapoは、最先端の継続的学習システムであるEkyaとEOMUよりも6.5%と5.5%高い精度を実現し、消費電力は254倍少ない。
論文 参考訳(メタデータ) (2024-03-21T12:28:44Z) - Training Neural Networks from Scratch with Parallel Low-Rank Adapters [46.764982726136054]
計算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムである LoRA-the-Explorer (LTE) を導入する。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:55:13Z) - Federated Learning over Hierarchical Wireless Networks: Training Latency Minimization via Submodel Partitioning [15.311309249848739]
階層型独立サブモデルトレーニング(Hierarchical independent submodel training、HIST)は、階層型クラウド-エッジ-クライアントネットワークにおけるこれらの問題に対処することを目的とした新しいFL方法論である。
本研究では,HISTを空気上計算(AirComp)で拡張することにより,エッジセル上でのモデルアグリゲーションの効率をより高めることができることを示す。
論文 参考訳(メタデータ) (2023-10-27T04:42:59Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Learning Centric Wireless Resource Allocation for Edge Computing:
Algorithm and Experiment [15.577056429740951]
Edge Intelligenceは、センサー、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。
既存の方法は2つの重要な事実を無視している: 1) 異なるモデルがトレーニングデータに不均一な要求を持っている; 2) シミュレーション環境と実環境との間にはミスマッチがある。
本稿では,複数のタスクの最悪の学習性能を最大化する学習中心の無線リソース割り当て方式を提案する。
論文 参考訳(メタデータ) (2020-10-29T06:20:40Z) - Prune2Edge: A Multi-Phase Pruning Pipelines to Deep Ensemble Learning in
IIoT [0.0]
IIoTデバイス上での学習をアンサンブルするためのエッジベースのマルチフェーズ・プルーニングパイプラインを提案する。
第1フェーズでは、様々なプルーンドモデルのアンサンブルを生成し、次いで整数量子化を適用し、次にクラスタリングに基づく手法を用いて生成されたアンサンブルをプルークする。
提案手法は,ベースラインモデルの予測可能性レベルより優れていた。
論文 参考訳(メタデータ) (2020-04-09T17:44:34Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。