論文の概要: Dynamic Preference Multi-Objective Reinforcement Learning for Internet Network Management
- arxiv url: http://arxiv.org/abs/2506.13153v1
- Date: Mon, 16 Jun 2025 07:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.596159
- Title: Dynamic Preference Multi-Objective Reinforcement Learning for Internet Network Management
- Title(参考訳): インターネットネットワーク管理のための動的選好多目的強化学習
- Authors: DongNyeong Heo, Daniela Noemi Rim, Heeyoul Choi,
- Abstract要約: 本稿では,RLをベースとしたネットワーク管理エージェントを提案する。
偏りのない訓練に有利な選好分布を推定できる数値計算法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An internet network service provider manages its network with multiple objectives, such as high quality of service (QoS) and minimum computing resource usage. To achieve these objectives, a reinforcement learning-based (RL) algorithm has been proposed to train its network management agent. Usually, their algorithms optimize their agents with respect to a single static reward formulation consisting of multiple objectives with fixed importance factors, which we call preferences. However, in practice, the preference could vary according to network status, external concerns and so on. For example, when a server shuts down and it can cause other servers' traffic overloads leading to additional shutdowns, it is plausible to reduce the preference of QoS while increasing the preference of minimum computing resource usages. In this paper, we propose new RL-based network management agents that can select actions based on both states and preferences. With our proposed approach, we expect a single agent to generalize on various states and preferences. Furthermore, we propose a numerical method that can estimate the distribution of preference that is advantageous for unbiased training. Our experiment results show that the RL agents trained based on our proposed approach significantly generalize better with various preferences than the previous RL approaches, which assume static preference during training. Moreover, we demonstrate several analyses that show the advantages of our numerical estimation method.
- Abstract(参考訳): インターネットネットワークサービスプロバイダは、品質の高いサービス(QoS)や最小のコンピューティングリソース使用量など、複数の目的でネットワークを管理する。
これらの目的を達成するため、ネットワーク管理エージェントをトレーニングするための強化学習ベース(RL)アルゴリズムが提案されている。
通常、それらのアルゴリズムは、複数の目的と固定された重要因子からなる1つの静的報酬の定式化に関してエージェントを最適化する。
しかし、実際にはネットワークの状態や外部の関心事などによって好みが変わる可能性がある。
例えば、サーバがシャットダウンし、他のサーバのトラフィック過負荷が追加シャットダウンを引き起こす可能性がある場合、QoSの好みを減らし、最小限のコンピューティングリソースの使用を優先する傾向にある。
本稿では,RLに基づくネットワーク管理エージェントを提案する。
提案手法では,一つのエージェントが様々な状態や嗜好を一般化することを期待している。
さらに、偏りのない訓練に有利な好みの分布を推定できる数値的手法を提案する。
実験の結果,提案手法に基づいて訓練したRLエージェントは,従来のRLアプローチよりも様々な選好で大幅に一般化し,トレーニング中の静的選好を前提としていた。
さらに,本手法の利点を示すいくつかの解析結果を示した。
関連論文リスト
- Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Objective Deep Reinforcement Learning for Optimisation in Autonomous Systems [3.2826250607043796]
MORL(Multi-Objective Reinforcement Learning)技術は存在するが、実世界のASシステムではなくRLベンチマークで採用されている。
本研究では,DWN(Deep W-Learning)と呼ばれるMORL技術を用いて,実行時性能最適化のための最適構成を求める。
我々はDWNとepsilon-greedyアルゴリズムとDeep Q-Networksの2つの単目的最適化実装を比較した。
論文 参考訳(メタデータ) (2024-08-02T11:16:09Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Asynchronous Message-Passing and Zeroth-Order Optimization Based Distributed Learning with a Use-Case in Resource Allocation in Communication Networks [11.182443036683225]
分散学習と適応は大きな関心を集め、機械学習信号処理に広く応用されている。
本稿では、エージェントが共通のタスクに向けて協調するシナリオに焦点を当てる。
送信者として働くエージェントは、グローバルな報酬を最大化するために、それぞれのポリシーを共同で訓練する。
論文 参考訳(メタデータ) (2023-11-08T11:12:27Z) - Rethinking Value Function Learning for Generalization in Reinforcement
Learning [11.516147824168732]
我々は、観測一般化性能を向上させるために、複数の訓練環境においてRLエージェントを訓練することの課題に焦点をあてる。
マルチ環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。
本稿では,政策ネットワークよりもトレーニングデータが多い値ネットワークを少ない頻度で最適化することにより,暗黙的に評価値のペナルティ化を行うDelayed-Critic Policy Gradient (DCPG)を提案する。
論文 参考訳(メタデータ) (2022-10-18T16:17:47Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Resource Management in Wireless Networks via Multi-Agent Deep
Reinforcement Learning [15.091308167639815]
マルチエージェント深部強化学習(RL)を用いた無線ネットワークにおける分散リソース管理と干渉軽減機構を提案する。
ネットワーク内の各送信機に深部RLエージェントを装備し、それに関連するユーザからの遅延観測を受信するとともに、近隣のエージェントと観測を交換する。
提案フレームワークは,エージェントが他のエージェントの同時決定を知らずに,同時かつ分散的に意思決定を行うことを可能にする。
論文 参考訳(メタデータ) (2020-02-14T19:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。