論文の概要: Prompt-Tuned LLM-Augmented DRL for Dynamic O-RAN Network Slicing
- arxiv url: http://arxiv.org/abs/2506.00574v1
- Date: Sat, 31 May 2025 14:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.206697
- Title: Prompt-Tuned LLM-Augmented DRL for Dynamic O-RAN Network Slicing
- Title(参考訳): 動的O-RANネットワークスライシングのためのPrompt-Tuned LLM-Augmented DRL
- Authors: Fatemeh Lotfi, Hossein Rajoli, Fatemeh Afghah,
- Abstract要約: 大規模言語モデル(LLM)は、無秩序なネットワークフィードバックを意味のある潜在表現に構造化する。
O-RANスライシングでは、SNR、パワーレベル、スループットといった概念が意味的に関連している。
学習可能なプロンプトをLLM拡張DRLフレームワークに統合した文脈化に基づく適応手法を提案する。
- 参考スコア(独自算出の注目度): 5.62872273155603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern wireless networks must adapt to dynamic conditions while efficiently managing diverse service demands. Traditional deep reinforcement learning (DRL) struggles in these environments, as scattered and evolving feedback makes optimal decision-making challenging. Large Language Models (LLMs) offer a solution by structuring unorganized network feedback into meaningful latent representations, helping RL agents recognize patterns more effectively. For example, in O-RAN slicing, concepts like SNR, power levels and throughput are semantically related, and LLMs can naturally cluster them, providing a more interpretable state representation. To leverage this capability, we introduce a contextualization-based adaptation method that integrates learnable prompts into an LLM-augmented DRL framework. Instead of relying on full model fine-tuning, we refine state representations through task-specific prompts that dynamically adjust to network conditions. Utilizing ORANSight, an LLM trained on O-RAN knowledge, we develop Prompt-Augmented Multi agent RL (PA-MRL) framework. Learnable prompts optimize both semantic clustering and RL objectives, allowing RL agents to achieve higher rewards in fewer iterations and adapt more efficiently. By incorporating prompt-augmented learning, our approach enables faster, more scalable, and adaptive resource allocation in O-RAN slicing. Experimental results show that it accelerates convergence and outperforms other baselines.
- Abstract(参考訳): 現代の無線ネットワークは、多様なサービス要求を効率的に管理しながら、動的条件に適応する必要がある。
従来の深層学習(DRL)は、分散し、進化するフィードバックが最適な意思決定を困難にするため、これらの環境で苦労する。
大規模言語モデル(LLM)は、未編成のネットワークフィードバックを有意義な潜在表現に構造化することで、RLエージェントがパターンをより効果的に認識できるようにするソリューションを提供する。
例えば、O-RANスライシングでは、SNR、電力レベル、スループットといった概念は意味論的に関連しており、LLMはそれらを自然にクラスタリングし、より解釈可能な状態表現を提供する。
この機能を活用するために,学習可能なプロンプトをLLM拡張DRLフレームワークに統合した文脈化に基づく適応手法を提案する。
完全なモデルファインチューニングに頼るのではなく、タスク固有のプロンプトによって状態表現を洗練し、ネットワーク条件に動的に適応する。
O-RAN知識を訓練したLLMであるORANSightを用いて,Prompt-Augmented Multi Agent RL (PA-MRL) フレームワークを開発した。
学習可能なプロンプトはセマンティッククラスタリングとRLの目的の両方を最適化し、RLエージェントはより少ないイテレーションでより高い報酬を達成でき、より効率的に適応できる。
迅速な学習を取り入れることで,O-RANスライシングにおいて,より高速で,よりスケーラブルで,適応的なリソース割り当てが可能になる。
実験の結果、収束を加速し、他のベースラインを上回る結果が得られた。
関連論文リスト
- ORAN-GUIDE: RAG-Driven Prompt Learning for LLM-Augmented Reinforcement Learning in O-RAN Network Slicing [5.62872273155603]
マルチエージェント(MARL)をタスク関連で意味的にリッチな状態表現で拡張するデュアルLLMフレームワークである textitORAN-GUIDE を提案する。
その結果、ORAN-GUIDEは標準MARLおよび単一LLMベースライン上でのサンプル効率、ポリシー収束、性能一般化を改善することが示された。
論文 参考訳(メタデータ) (2025-05-31T14:21:19Z) - LAMeTA: Intent-Aware Agentic Network Optimization via a Large AI Model-Empowered Two-Stage Approach [68.198383438396]
本稿では,大規模AIモデル(LAM)を用いたエージェントネットワーク最適化のための2段階アプローチであるLAMeTAを提案する。
まず,インテント指向の知識蒸留(IoKD)を提案する。
第2に、E-LAMをポリシーベースのDRLフレームワークに統合した共生強化学習(SRL)を開発する。
論文 参考訳(メタデータ) (2025-05-18T05:59:16Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback [37.22370177877156]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
複雑な意思決定タスクにおけるそれらの応用は、しばしば複雑な迅速なエンジニアリングや微調整を必要とする。
本稿では,LLMとRLフィードバックの相乗効果を高めるために設計された新しいフレームワークであるAdaRefinerを紹介する。
我々の研究は、RLフィードバックによるLLMの自動自己修正に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-29T12:16:19Z) - FORLORN: A Framework for Comparing Offline Methods and Reinforcement
Learning for Optimization of RAN Parameters [0.0]
本稿では,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。
このフレームワークでは、ドメイン固有の知識を持たないRLエージェントが、静的シナリオにおけるオフライン最適化に適合するように、Radio Access Network(RAN)パラメータを効率的に調整する方法を学習できることを実証する。
論文 参考訳(メタデータ) (2022-09-08T12:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。