Fugu-MT 論文翻訳(概要): Average Reward Reinforcement Learning for Wireless Radio Resource Management

論文の概要: Average Reward Reinforcement Learning for Wireless Radio Resource Management

arxiv url: http://arxiv.org/abs/2501.06700v1
Date: Sun, 12 Jan 2025 03:45:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 19:20:12.951405
Title: Average Reward Reinforcement Learning for Wireless Radio Resource Management
Title（参考訳）: 無線無線資源管理のための平均余剰強化学習
Authors: Kun Yang, Jing Yang, Cong Shen,
Abstract要約: 本稿では、割引報酬RLの定式化と無線ネットワーク最適化の未公表目標とのミスマッチについて述べる。 ARO SAC (Average Reward Off Policy Soft Actor Critic) と呼ばれる新しい手法を提案する。
参考スコア（独自算出の注目度）: 14.111492091794712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we address a crucial but often overlooked issue in applying reinforcement learning (RL) to radio resource management (RRM) in wireless communications: the mismatch between the discounted reward RL formulation and the undiscounted goal of wireless network optimization. To the best of our knowledge, we are the first to systematically investigate this discrepancy, starting with a discussion of the problem formulation followed by simulations that quantify the extent of the gap. To bridge this gap, we introduce the use of average reward RL, a method that aligns more closely with the long-term objectives of RRM. We propose a new method called the Average Reward Off policy Soft Actor Critic (ARO SAC) is an adaptation of the well known Soft Actor Critic algorithm in the average reward framework. This new method achieves significant performance improvement our simulation results demonstrate a 15% gain in the system performance over the traditional discounted reward RL approach, underscoring the potential of average reward RL in enhancing the efficiency and effectiveness of wireless network optimization.
Abstract（参考訳）: 本稿では、無線通信における無線リソース管理(RRM)に強化学習(RL)を適用する上で、重要かつしばしば見過ごされる問題に対処する。我々の知識を最大限に活用するために、我々はまずこの矛盾を体系的に研究し、まず問題定式化の議論から始まり、そのギャップの程度を定量化するシミュレーションを行った。このギャップを埋めるため,RRMの長期目標とより緊密に整合する手法である平均報酬RLを導入する。 ARO SAC (Average Reward Off Policy Soft Actor Critic) と呼ばれる新しい手法を提案する。提案手法は,従来の割引報酬RL手法よりもシステム性能が15%向上し,無線ネットワーク最適化の効率と有効性を高めるための平均報酬RLの可能性を示す。

関連論文リスト

Accelerating RLHF Training with Reward Variance Increase [5.330219278966635]
人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。本稿では,報酬分散を良好に増加させ,相対的な選好報酬期待値を維持することで,成功度HFトレーニングを加速する報奨調整モデルを提案する。
論文参考訳（メタデータ） (2025-05-29T08:54:06Z)
Robot See, Robot Do: Imitation Reward for Noisy Financial Environments [0.0]
本稿では,模倣学習を活用することによって,より新しい,より堅牢な報酬関数を提案する。モデルフリー強化学習アルゴリズムにおいて,再現性(エキスパートの)フィードバックと強化性(エージェントの)フィードバックを統合する。実証的な結果は、この新しいアプローチが従来のベンチマークと比較すると、財務パフォーマンスの指標を改善することを示している。
論文参考訳（メタデータ） (2024-11-13T14:24:47Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。多くの実世界のシナリオでは、即時報酬信号の設計は困難である。本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文参考訳（メタデータ） (2024-02-06T07:26:44Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A Hybrid Transfer Learning Approach [20.344810727033327]
我々は,DRLをベースとしたO-RANスライシングにおいて,安全かつ迅速な収束を実現するためのハイブリッドTL支援手法を提案し,設計する。提案されたハイブリッドアプローチは、少なくとも7.7%と20.7%は、平均的な初期報酬値と収束シナリオの割合を改善している。
論文参考訳（メタデータ） (2023-09-13T18:58:34Z)
A State-Augmented Approach for Learning Optimal Resource Management Decisions in Wireless Networks [58.720142291102135]
マルチユーザ無線ネットワークにおける無線リソース管理(RRM)問題について考察する。目標は、ユーザのエルゴード平均パフォーマンスに制約を受けるネットワーク全体のユーティリティ機能を最適化することである。本稿では, RRM の制約に対応する2変数の集合を入力として, 瞬時ネットワーク状態と並行して, RRM のパラメータ化を提案する。
論文参考訳（メタデータ） (2022-10-28T21:24:13Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Contingency-Aware Influence Maximization: A Reinforcement Learning Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文参考訳（メタデータ） (2021-06-13T16:42:22Z)
Hierarchical Reinforcement Learning for Relay Selection and Power Optimization in Two-Hop Cooperative Relay Network [7.5377621697101205]
本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-10T04:47:41Z)
Deep Reinforcement Learning for QoS-Constrained Resource Allocation in Multiservice Networks [0.3324986723090368]
本稿では、マルチサービス無線システムにおける満足度保証に対するスペクトル効率の最大化を主な目的とする非最適化問題に焦点をあてる。本稿では,Reinforcement Learning (RL) フレームワークに基づくソリューションを提案し,各エージェントがローカル環境とのインタラクションによってポリシーを見つける決定を行う。スループットと停止率の観点から、後者のほぼ最適性能を示す。
論文参考訳（メタデータ） (2020-03-03T19:32:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。