論文の概要: Large Artificial Intelligence Model Guided Deep Reinforcement Learning for Resource Allocation in Non Terrestrial Networks
- arxiv url: http://arxiv.org/abs/2601.08254v1
- Date: Tue, 13 Jan 2026 06:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.080489
- Title: Large Artificial Intelligence Model Guided Deep Reinforcement Learning for Resource Allocation in Non Terrestrial Networks
- Title(参考訳): 非地球ネットワークにおける資源配分のための大規模人工知能モデルによる深層強化学習
- Authors: Abdikarim Mohamed Ibrahim, Rosdiadee Nordin,
- Abstract要約: 大規模言語モデル(LLM)を用いた深層強化学習(DRL)エージェントを提案する。
その結果, LAM-DRLは名目上の気象シナリオでは40%, 極端な気象シナリオでは64%, 従来のDRLよりも優れていた。
- 参考スコア(独自算出の注目度): 1.5469452301122173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large AI Model (LAM) have been proposed to applications of Non-Terrestrial Networks (NTN), that offer better performance with its great generalization and reduced task specific trainings. In this paper, we propose a Deep Reinforcement Learning (DRL) agent that is guided by a Large Language Model (LLM). The LLM operates as a high level coordinator that generates textual guidance that shape the reward of the DRL agent during training. The results show that the LAM-DRL outperforms the traditional DRL by 40% in nominal weather scenarios and 64% in extreme weather scenarios compared to heuristics in terms of throughput, fairness, and outage probability.
- Abstract(参考訳): 大規模AIモデル(LAM)がNTN(Non-Terrestrial Networks)の応用に提案されている。
本稿では,Large Language Model (LLM) によって誘導される深層強化学習(DRL)エージェントを提案する。
LLMは、訓練中にDRLエージェントの報酬を形成するテキストガイダンスを生成する高レベルのコーディネータとして機能する。
その結果, LAM-DRLは, スループット, 公平性, 停止確率の点でヒューリスティックスに比べて, 名目上の気象シナリオでは40%, 極端な気象シナリオでは64%, 従来のDRLよりも優れていた。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:55:09Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について
LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文 参考訳(メタデータ) (2025-09-10T17:59:43Z) - AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback [37.22370177877156]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
複雑な意思決定タスクにおけるそれらの応用は、しばしば複雑な迅速なエンジニアリングや微調整を必要とする。
本稿では,LLMとRLフィードバックの相乗効果を高めるために設計された新しいフレームワークであるAdaRefinerを紹介する。
我々の研究は、RLフィードバックによるLLMの自動自己修正に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-29T12:16:19Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Enhancing the Generalization Performance and Speed Up Training for
DRL-based Mapless Navigation [18.13884934663477]
DRLエージェントはトレーニングシナリオでうまく動作し、目に見えない現実のシナリオではうまく動作しない。
本稿では,DRLエージェントがこのような未知のシナリオでフェールする理由を論じ,LiDAR読み出しの表現がエージェントの性能劣化の鍵となる要因であることを示す。
そこで本稿では,DRLエージェントの性能向上とトレーニングの高速化を目的とした,簡易かつ効率的な入力前処理(IP)手法を提案する。
論文 参考訳(メタデータ) (2021-03-22T09:36:51Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。