論文の概要: Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.08518v1
- Date: Mon, 09 Mar 2026 15:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.316611
- Title: Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning
- Title(参考訳): 多目的強化学習におけるバイアスバリアの破壊
- Authors: Swetha Ganesh, Vaneet Aggarwal,
- Abstract要約: マルチレベルモンテカルロ推定器を用いた自然ポリシー勾配アルゴリズムを開発した。
提案手法は,最適な$widetildemathcalO(-2)$サンプル複雑性を,$$-optimal Policyを演算する上で達成する。
- 参考スコア(独自算出の注目度): 46.80389197344682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While standard reinforcement learning optimizes a single reward signal, many applications require optimizing a nonlinear utility $f(J_1^π,\dots,J_M^π)$ over multiple objectives, where each $J_m^π$ denotes the expected discounted return of a distinct reward function. A common approach is concave scalarization, which captures important trade-offs such as fairness and risk sensitivity. However, nonlinear scalarization introduces a fundamental challenge for policy gradient methods: the gradient depends on $\partial f(J^π)$, while in practice only empirical return estimates $\hat J$ are available. Because $f$ is nonlinear, the plug-in estimator is biased ($\mathbb{E}[\partial f(\hat J)] \neq \partial f(\mathbb{E}[\hat J])$), leading to persistent gradient bias that degrades sample complexity. In this work we identify and overcome this bias barrier in concave-scalarized multi-objective reinforcement learning. We show that existing policy-gradient methods suffer an intrinsic $\widetilde{\mathcal{O}}(ε^{-4})$ sample complexity due to this bias. To address this issue, we develop a Natural Policy Gradient (NPG) algorithm equipped with a multi-level Monte Carlo (MLMC) estimator that controls the bias of the scalarization gradient while maintaining low sampling cost. We prove that this approach achieves the optimal $\widetilde{\mathcal{O}}(ε^{-2})$ sample complexity for computing an $ε$-optimal policy. Furthermore, we show that when the scalarization function is second-order smooth, the first-order bias cancels automatically, allowing vanilla NPG to achieve the same $\widetilde{\mathcal{O}}(ε^{-2})$ rate without MLMC. Our results provide the first optimal sample complexity guarantees for concave multi-objective reinforcement learning under policy-gradient methods.
- Abstract(参考訳): 標準的な強化学習は単一の報酬信号を最適化するが、多くのアプリケーションは複数の目的に対して非線形効用$f(J_1^π,\dots,J_M^π)$を最適化する必要がある。
一般的なアプローチは凹凸のスカラー化であり、公正さやリスク感度といった重要なトレードオフを捉えている。
勾配は$\partial f(J^π)$に依存するが、実際は経験的リターン推定$\hat J$のみが利用可能である。
f$ は非線形であるため、プラグイン推定子は (\mathbb{E}[\partial f(\hat J)] \neq \partial f(\mathbb{E}[\hat J])$) バイアスを受ける。
本研究では, 凹凸型多目的強化学習において, このバイアス障壁を特定し, 克服する。
既存の政策段階的手法は、このバイアスにより、本質的な$\widetilde{\mathcal{O}}(ε^{-4})$サンプル複雑性に悩まされていることを示す。
この問題を解決するために,マルチレベルモンテカルロ (MLMC) 推定器を備えた自然ポリシー勾配 (NPG) アルゴリズムを開発した。
提案手法は,$ε$-optimal Policy の計算に最適な$\widetilde{\mathcal{O}}(ε^{-2})$サンプル複雑性を実現する。
さらに,スカラー化関数が2次スムースである場合,第1次バイアスは自動的にキャンセルされ,バニラNPGはMLMCなしで同じ$\widetilde{\mathcal{O}}(ε^{-2})$レートを達成する。
本研究は,多目的強化学習を政策段階の手法で実現するための,最初の最適サンプル複雑性保証を提供する。
関連論文リスト
- Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization [85.91302339486673]
我々は、s-正方形および非正方形不確実性集合の下で、一般的な政策パラメータ化を伴うロバストマルコフ決定過程(RMDP)について検討する。
無限状態空間に拡張する一般政策パラメタライゼーションに対する新しいリプシッツ・リプシッツ・スムースネス特性を証明した。
本研究では,S-正方形不確かさに対する勾配降下アルゴリズムと非正方形不確かさに対するFrank-Wolfeアルゴリズムを設計する。
論文 参考訳(メタデータ) (2026-02-11T21:44:20Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Provable Policy Gradient Methods for Average-Reward Markov Potential
Games [15.136494705127564]
無限水平平均報酬基準の下でマルコフポテンシャルゲームを研究する。
我々は、独立政策勾配と独立自然政策勾配に基づくアルゴリズムが、平均報酬基準に対するナッシュ均衡にグローバルに収束することを証明した。
論文 参考訳(メタデータ) (2024-03-09T00:20:33Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Provably Robust Temporal Difference Learning for Heavy-Tailed Rewards [27.209606183563853]
動的勾配クリッピング機構による時間差(TD)学習は,重み付き報酬分布に対して確実に堅牢化できることを確認した。
TD学習に基づくNACの頑健な変種が$tildemathcalO(varepsilon-frac1p)$サンプル複雑性を達成することを示す。
論文 参考訳(メタデータ) (2023-06-20T11:12:21Z) - Reinforcement Learning with General Utilities: Simpler Variance
Reduction and Large State-Action Space [17.366915676628867]
一般用途における強化学習の課題について考察する。
我々のアルゴリズムは、$tildemathcalO(epsilon-3)$と$tildemathcalO(epsilon-2)$サンプル複雑度を達成する。
論文 参考訳(メタデータ) (2023-06-02T18:16:35Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm [50.50545326342971]
複数の長期目標の非線形凹関数を最大化する問題を定式化する。
この問題に対してポリシー段階に基づくモデルフリーアルゴリズムを提案する。
提案アルゴリズムは,グローバルオプティマの$epsilon$以内に収束することが示されている。
論文 参考訳(メタデータ) (2021-05-28T22:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。