Fugu-MT 論文翻訳(概要): A Deep Learning Based Resource Allocator for Communication Systems with Dynamic User Utility Demands

論文の概要: A Deep Learning Based Resource Allocator for Communication Systems with Dynamic User Utility Demands

arxiv url: http://arxiv.org/abs/2311.04600v1
Date: Wed, 8 Nov 2023 11:02:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 15:59:04.208015
Title: A Deep Learning Based Resource Allocator for Communication Systems with Dynamic User Utility Demands
Title（参考訳）: 動的ユーザユーティリティ要求を考慮したコミュニケーションシステムのための深層学習型リソースアロケータ
Authors: Pourya Behmandpoor, Panagiotis Patrinos, Marc Moonen
Abstract要約: DLベースのリソースアロケータ(ALCOR)が導入された。 ALCORは、繰り返し最適化アルゴリズムにおいて、ポリシーとしてディープニューラルネットワーク(DNN)を使用している。このポリシーは、アクティブユーザの間で、制限のないRA(URA) -- ユーザユーティリティの要求を考慮せずに、RA -- を実行し、各時点の合計ユーティリティ(SU)を最大化する。
参考スコア（独自算出の注目度）: 12.216015676346032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) based resource allocation (RA) has recently gained a lot of attention due to its performance efficiency. However, most of the related studies assume an ideal case where the number of users and their utility demands, e.g., data rate constraints, are fixed and the designed DL based RA scheme exploits a policy trained only for these fixed parameters. A computationally complex policy retraining is required whenever these parameters change. Therefore, in this paper, a DL based resource allocator (ALCOR) is introduced, which allows users to freely adjust their utility demands based on, e.g., their application layer. ALCOR employs deep neural networks (DNNs), as the policy, in an iterative optimization algorithm. The optimization algorithm aims to optimize the on-off status of users in a time-sharing problem to satisfy their utility demands in expectation. The policy performs unconstrained RA (URA) -- RA without taking into account user utility demands -- among active users to maximize the sum utility (SU) at each time instant. Based on the chosen URA scheme, ALCOR can perform RA in a model-based or model-free manner and in a centralized or distributed scenario. Derived convergence analyses provide guarantees for the convergence of ALCOR, and numerical experiments corroborate its effectiveness.
Abstract（参考訳）: ディープラーニング(DL)ベースのリソース割り当て(RA)は、そのパフォーマンス効率から、最近多くの注目を集めています。しかし、関連研究の多くは、データレート制約などのユーザ数とそのユーティリティ要求が固定され、設計されたDLベースのRAスキームは、これらの固定パラメータに対してのみ訓練されたポリシーを利用するという理想的なケースを前提としている。これらのパラメータが変化するたびに、計算量的に複雑なポリシー再トレーニングが必要となる。そこで,本論文では,DLベースのリソースアロケータ(ALCOR)を導入し,アプリケーション層などに基づいて,ユーザが自由にユーティリティ要求を調整できるようにする。 alcorは反復最適化アルゴリズムにおいて、ポリシーとしてディープニューラルネットワーク(dnn)を採用している。最適化アルゴリズムは,期待するユーティリティ要求を満たすために,タイムシェアリング問題におけるユーザのオンオフ状態を最適化することを目的としている。このポリシーは、アクティブユーザ間のユーザユーティリティ要求を考慮せずに、unconstrained ra (ura) -- raを実行し、瞬時にsumユーティリティ(su)を最大化する。選択されたURAスキームに基づいて、ALCORはモデルベースまたはモデルフリーな方法で、集中的または分散的なシナリオでRAを実行することができる。導出収束解析はalcorの収束の保証を提供し、数値実験はその効果を補う。

関連論文リスト

Learning Optimal and Sample-Efficient Decision Policies with Guarantees [3.096615629099617]
この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
論文参考訳（メタデータ） (2026-02-20T04:24:49Z)
Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。 ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-09T03:42:16Z)
Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs [12.995753143157083]
Contrastive LoRA Decoding (CoLD) は、LoRA適応モデルにおけるタスク固有の知識の使用を最大化するために設計された、新しいデコーディングフレームワークである。 CoLDはタスクの精度を最大5.54%向上し、エンドツーエンドのレイテンシを28%削減する。
論文参考訳（メタデータ） (2025-05-20T17:11:18Z)
Efficient Split Federated Learning for Large Language Models over Communication Networks [45.02252893286613]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することで、リソース制約のあるエッジネットワークにおいて大きな課題が生じる。本稿では,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるSflLLMを提案する。モデル分割とローランク適応(LoRA)を活用することにより、SflLLMはエッジデバイスの計算負担を軽減する。
論文参考訳（メタデータ） (2025-04-20T16:16:54Z)
Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:56:20Z)
Adaptive Resource Allocation Optimization Using Large Language Models in Dynamic Wireless Environments [25.866960634041092]
現在のソリューションはドメイン固有のアーキテクチャや技術に依存しており、制約付き最適化のための一般的なDLアプローチは未開発のままである。本稿では,制約を順守しながら複雑な資源配分問題に対処するために,資源割当(LLM-RAO)のための大規模言語モデルを提案する。 LLM-RAO は従来の DL 法と比較して最大40% の性能向上を実現し,分析手法よりも80$% 向上した。
論文参考訳（メタデータ） (2025-02-04T12:56:59Z)
Deep Reinforcement Learning for Dynamic Resource Allocation in Wireless Networks [0.9307293959047378]
本報告では,無線通信システムにおける動的リソース割り当てに対する深部強化学習(DRL)アルゴリズムの適用について検討する。アルゴリズムと学習率の選択はシステム性能に大きく影響を与え、DRLは従来の手法よりも効率的なリソース割り当てを提供する。
論文参考訳（メタデータ） (2025-02-03T07:49:00Z)
Maximizing User Connectivity in AI-Enabled Multi-UAV Networks: A Distributed Strategy Generalized to Arbitrary User Distributions [27.618813335291048]
本稿では,未知のユーザパターンを持つ環境における分散ユーザ分布について検討する。最適化を容易にするために,マルチエージェントCNN拡張ディープラーニング(CDQL)アルゴリズムを提案する。学習効率を向上し、最適な局所性を避けるため、生のUDを連続密度マップに変換するヒートマップを開発した。
論文参考訳（メタデータ） (2024-11-07T22:10:54Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。 HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2024-06-25T07:42:30Z)
Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。 STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文参考訳（メタデータ） (2024-06-19T07:17:04Z)
PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching [20.607323649079845]
Low-Rank Adaptation (LoRA)は、命令の微調整に代わる有望な代替手段となっている。 PILLOWは差別ベースのLLM機能によってLoRAのパフォーマンスを改善することを目的としている。 PILLOWは、一般的な命令の微調整手法と比較して、様々な評価指標に相反する性能を示す。
論文参考訳（メタデータ） (2023-12-09T17:38:39Z)
Joint User Association, Interference Cancellation and Power Control for Multi-IRS Assisted UAV Communications [80.35959154762381]
インテリジェント反射面(IRS)支援無人航空機(UAV)通信は、地上基地局の負荷を低コストで軽減することが期待されている。既存の研究は主に、複数のIRSではなく単一のIRSの配置とリソース割り当てに焦点を当てている。我々は,共同IRSユーザアソシエーションのための新しい最適化アルゴリズム,UAVの軌道最適化,逐次干渉キャンセル(SIC)復号命令スケジューリング,電力割り当てを提案する。
論文参考訳（メタデータ） (2023-12-08T01:57:10Z)
FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。 ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。 FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文参考訳（メタデータ） (2022-09-28T19:49:39Z)
Multi-Objective Coordination Graphs for the Expected Scalarised Returns with Generative Flow Models [2.7648976108201815]
現実世界の問題を解決する鍵は、エージェント間の疎結合構造を利用することである。風力発電の制御においては、電力の最大化とシステムコンポーネントのストレスの最小化の間にトレードオフが存在する。エージェント間の疎結合を多目的協調グラフ(MO-CoG)としてモデル化する。
論文参考訳（メタデータ） (2022-07-01T12:10:15Z)
Model-Free Learning of Optimal Deterministic Resource Allocations in Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文参考訳（メタデータ） (2021-08-23T18:26:16Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Deep Reinforcement Learning for Resource Constrained Multiclass Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文参考訳（メタデータ） (2020-11-27T09:49:38Z)
Resource Allocation via Model-Free Deep Learning in Free Space Optical Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-27T17:38:51Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。