論文の概要: Enabling Pareto-Stationarity Exploration in Multi-Objective Reinforcement Learning: A Multi-Objective Weighted-Chebyshev Actor-Critic Approach
- arxiv url: http://arxiv.org/abs/2507.21397v1
- Date: Tue, 29 Jul 2025 00:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.450199
- Title: Enabling Pareto-Stationarity Exploration in Multi-Objective Reinforcement Learning: A Multi-Objective Weighted-Chebyshev Actor-Critic Approach
- Title(参考訳): 多目的強化学習におけるPareto-Stationarity探索の実現:多目的重み付きチェビシェフアクター・クリティカルアプローチ
- Authors: Fnu Hairi, Jiao Yang, Tianchen Zhou, Haibo Yang, Chaosheng Dong, Fan Yang, Michinari Momma, Yan Gao, Jia Liu,
- Abstract要約: 多目的強化学習(MORL)のための重み付きulineMulineActor-critic(MOCHA)アルゴリズムを提案する。
学習率を慎重に選択することで、各探索のサンプルの複雑さを$tildemathcalO(epsilon-2)$にすることができる。
MOCHAアルゴリズムの性能は、他のベースラインMORL手法よりも大幅に向上する。
- 参考スコア(独自算出の注目度): 23.834874532235382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many multi-objective reinforcement learning (MORL) applications, being able to systematically explore the Pareto-stationary solutions under multiple non-convex reward objectives with theoretical finite-time sample complexity guarantee is an important and yet under-explored problem. This motivates us to take the first step and fill the important gap in MORL. Specifically, in this paper, we propose a \uline{M}ulti-\uline{O}bjective weighted-\uline{CH}ebyshev \uline{A}ctor-critic (MOCHA) algorithm for MORL, which judiciously integrates the weighted-Chebychev (WC) and actor-critic framework to enable Pareto-stationarity exploration systematically with finite-time sample complexity guarantee. Sample complexity result of MOCHA algorithm reveals an interesting dependency on $p_{\min}$ in finding an $\epsilon$-Pareto-stationary solution, where $p_{\min}$ denotes the minimum entry of a given weight vector $\mathbf{p}$ in WC-scarlarization. By carefully choosing learning rates, the sample complexity for each exploration can be $\tilde{\mathcal{O}}(\epsilon^{-2})$. Furthermore, simulation studies on a large KuaiRand offline dataset, show that the performance of MOCHA algorithm significantly outperforms other baseline MORL approaches.
- Abstract(参考訳): 多くの多目的強化学習(MORL)アプリケーションでは、理論的有限時間サンプルの複雑性保証を伴う複数の非凸報酬目標の下でパレート定常解を体系的に探索することは重要かつ未探索の課題である。
これは、第一歩を踏み出し、MORLの重要なギャップを埋める動機となります。
具体的には、重み付きチェビチェフ(WC)とアクター・クリティック・フレームワークを巧みに統合し、有限時間サンプルの複雑性を保証してパレート・スタビタリティ探索を体系的に行う、MORLのための \uline{M}ulti-\uline{O}bjective-\uline{CH}ebyshev \uline{A}ctor-critic (MOCHA)アルゴリズムを提案する。
MOCHAアルゴリズムのサンプル複雑性の結果は、$p_{\min}$が与えられたウェイトベクトル$\mathbf{p}$の WC-スカラライゼーションにおける最小エントリーを表す$\epsilon$-Pareto-stationaryな解を見つける際に、$p_{\min}$に興味深い依存があることを明らかにする。
学習率を慎重に選択することで、各探索のサンプルの複雑さは$\tilde{\mathcal{O}}(\epsilon^{-2})$である。
さらに、大規模なKuaiRandオフラインデータセットのシミュレーション研究により、MOCHAアルゴリズムの性能は、他のベースラインMORLアプローチよりも著しく優れていることが示された。
関連論文リスト
- Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Sample Complexity of Variance-reduced Distributionally Robust Q-learning [17.96094201655567]
本稿では,分散性に頑健なQ-ラーニングアルゴリズムと,分散性に欠けるロバストなポリシーを効果的に学習できる分散性のあるQ-ラーニングアルゴリズムを2つ提案する。
一連の数値実験により、分布シフトの処理におけるアルゴリズムの理論的発見と効率性が確認された。
論文 参考訳(メタデータ) (2023-05-28T19:40:46Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - A Finite Sample Complexity Bound for Distributionally Robust Q-learning [17.96094201655567]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。
ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文 参考訳(メタデータ) (2023-02-26T01:15:32Z) - On-Demand Sampling: Learning Optimally from Multiple Distributions [63.20009081099896]
社会と現実世界の考察は、マルチディストリビューション学習パラダイムの台頭につながっている。
これらの学習パラダイムの最適なサンプル複雑性を確立し、このサンプル複雑性を満たすアルゴリズムを提供する。
アルゴリズムの設計と解析は,ゼロサムゲーム解決のためのオンライン学習手法の拡張によって実現されている。
論文 参考訳(メタデータ) (2022-10-22T19:07:26Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。