Fugu-MT 論文翻訳(概要): Offline Reinforcement Learning and Sequence Modeling for Downlink Link Adaptation

論文の概要: Offline Reinforcement Learning and Sequence Modeling for Downlink Link Adaptation

arxiv url: http://arxiv.org/abs/2410.23031v1
Date: Wed, 30 Oct 2024 14:01:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.343539
Title: Offline Reinforcement Learning and Sequence Modeling for Downlink Link Adaptation
Title（参考訳）: ダウンリンクリンク適応のためのオフライン強化学習とシーケンスモデリング
Authors: Samuele Peri, Alessio Russo, Gabor Fodor, Pablo Soldati,
Abstract要約: リンク適応は、モビリティ、高速なフェージング、不完全なチャネル品質情報の存在において難しい課題である。本稿では,バッチ制約付きQ-ラーニング,保守的Q-ラーニング,意思決定変換に基づく3つのLA設計を提案する。オフラインRLアルゴリズムは、データが適切な行動ポリシーで収集される場合、最先端のオンラインRLメソッドのパフォーマンスを達成することができる。
参考スコア（独自算出の注目度）: 3.687363450234871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contemporary radio access networks employ link adaption (LA) algorithms to optimize the modulation and coding schemes to adapt to the prevailing propagation conditions and are near-optimal in terms of the achieved spectral efficiency. LA is a challenging task in the presence of mobility, fast fading, and imperfect channel quality information and limited knowledge of the receiver characteristics at the transmitter, which render model-based LA algorithms complex and suboptimal. Model-based LA is especially difficult as connected user equipment devices become increasingly heterogeneous in terms of receiver capabilities, antenna configurations and hardware characteristics. Recognizing these difficulties, previous works have proposed reinforcement learning (RL) for LA, which faces deployment difficulties due to their potential negative impacts on live performance. To address this challenge, this paper considers offline RL to learn LA policies from data acquired in live networks with minimal or no intrusive effects on the network operation. We propose three LA designs based on batch-constrained deep Q-learning, conservative Q-learning, and decision transformers, showing that offline RL algorithms can achieve performance of state-of-the-art online RL methods when data is collected with a proper behavioral policy.
Abstract（参考訳）: 現代の無線アクセスネットワークでは、変調と符号化スキームを最適化するためにリンク適応(LA)アルゴリズムが採用されており、スペクトル効率の点でほぼ最適である。 LAは、モデルベースのLAアルゴリズムを複雑かつ最適にレンダリングする送信機において、モビリティ、高速なフェード、不完全なチャネル品質情報、受信機特性の限られた知識の存在において、困難なタスクである。モデルベースLAは、レシーバ機能、アンテナ構成、ハードウェア特性といった点において、接続されたユーザ機器デバイスがますます不均一になるため、特に困難である。これらの難しさを認識した従来の研究は、ライブパフォーマンスに悪影響を及ぼす可能性があるため、運用上の困難に直面しているLAのための強化学習(RL)を提案してきた。この課題に対処するため,本論文では,ライブネットワークで取得したデータからLAポリシーを学習するためのオフラインRLについて検討する。本稿では,バッチ制約の深いQ-ラーニング,保守的なQ-ラーニング,意思決定変換をベースとした3つのLA設計を提案する。

関連論文リスト

Offline and Distributional Reinforcement Learning for Wireless Communications [5.771885923067511]
従来のオンライン強化学習(RL)とディープRL手法は、リアルタイム無線ネットワークにおいて制限に直面している。これらの課題を克服できる2つの高度なRL技術である、オフラインおよび分散RLに焦点を当てる。本稿では,無線通信アプリケーションのためのオフラインと分散RLを組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-04T09:24:39Z)
Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文参考訳（メタデータ） (2025-02-11T20:31:59Z)
Resilient UAV Trajectory Planning via Few-Shot Meta-Offline Reinforcement Learning [5.771885923067511]
本研究は、オフラインRLとモデルに依存しないメタ学習を組み合わせた、新しい、レジリエントで、少数ショットのメタオフラインRLアルゴリズムを提案する。提案する数ショットメタオフラインRLアルゴリズムは,ベースライン方式よりも高速に収束することを示す。オフラインデータセットを使用して最適な共同AoIと送信パワーを達成できる唯一のアルゴリズムである。
論文参考訳（メタデータ） (2025-02-03T11:39:12Z)
Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文参考訳（メタデータ） (2024-11-18T08:20:21Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
DRL Optimization Trajectory Generation via Wireless Network Intent-Guided Diffusion Models for Optimizing Resource Allocation [58.62766376631344]
本稿では、無線通信ネットワークの異なる状態変化に対応するために、カスタマイズされた無線ネットワークインテント(WNI-G)モデルを提案する。大規模シミュレーションにより、動的通信システムにおけるスペクトル効率と従来のDRLモデルの変動の安定性が向上する。
論文参考訳（メタデータ） (2024-10-18T14:04:38Z)
Closed-form congestion control via deep symbolic regression [1.5961908901525192]
強化学習(RL)アルゴリズムは、超低レイテンシおよび高スループットシナリオにおける課題を処理することができる。実際のデプロイメントにおけるニューラルネットワークモデルの採用は、リアルタイムの推論と解釈可能性に関して、依然としていくつかの課題を提起している。本稿では,性能と一般化能力を維持しつつ,このような課題に対処する方法論を提案する。
論文参考訳（メタデータ） (2024-03-28T14:31:37Z)
Retentive Decision Transformer with Adaptive Masking for Reinforcement Learning based Recommendation Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS) は、様々なアプリケーションで約束されている。しかし彼らは、特に報酬関数の作成や、既存の大規模なデータセットの活用など、課題に悩まされている。オフラインRLRSの最近の進歩は、これらの2つの課題に対処するためのソリューションを提供する。
論文参考訳（メタデータ） (2024-03-26T12:08:58Z)
Advancing RAN Slicing with Offline Reinforcement Learning [15.259182716723496]
本稿では,RANスライシング問題を解決するためにオフライン強化学習を導入する。オフラインRLが準最適データセットからほぼ最適ポリシーを効果的に学習する方法を示す。また、各種サービスレベルの要件に適合するオフラインRLの有効性の実証的証拠も提示する。
論文参考訳（メタデータ） (2023-12-16T22:09:50Z)
Towards Scalable Wireless Federated Learning: Challenges and Solutions [40.68297639420033]
効果的な分散機械学習フレームワークとして、フェデレートラーニング(FL)が登場します。本稿では,ネットワーク設計と資源オーケストレーションの両面から,スケーラブルな無線FLを実現する上での課題と解決策について論じる。
論文参考訳（メタデータ） (2023-10-08T08:55:03Z)
A Neuromorphic Architecture for Reinforcement Learning from Real-Valued Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-07-06T12:33:34Z)
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-06-12T05:10:10Z)
A Unified Framework for Alternating Offline Model Training and Policy Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文参考訳（メタデータ） (2022-10-12T04:58:51Z)
Phase Shift Design in RIS Empowered Wireless Networks: From Optimization to AI-Based Methods [83.98961686408171]
再構成可能なインテリジェントサーフェス(RIS)は、無線ネットワークのための無線伝搬環境をカスタマイズする革命的な機能を持つ。無線システムにおけるRISの利点を完全に活用するには、反射素子の位相を従来の通信資源と共同で設計する必要がある。本稿では、RISが課す制約を扱うための現在の最適化手法と人工知能に基づく手法についてレビューする。
論文参考訳（メタデータ） (2022-04-28T09:26:14Z)
MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文参考訳（メタデータ） (2022-01-25T03:14:57Z)
Offline Contextual Bandits for Wireless Network Optimization [107.24086150482843]
本稿では,ユーザ要求の変化に応じて,ネットワーク内の各セルの構成パラメータを自動的に調整するポリシの学習方法について検討する。私たちのソリューションは、オフライン学習のための既存の方法を組み合わせて、この文脈で生じる重要な課題を克服する原則的な方法でそれらを適応します。
論文参考訳（メタデータ） (2021-11-11T11:31:20Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文参考訳（メタデータ） (2020-12-25T07:08:50Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。