論文の概要: Multi-Objective Reinforcement Learning with Max-Min Criterion: A Game-Theoretic Approach
- arxiv url: http://arxiv.org/abs/2510.20235v1
- Date: Thu, 23 Oct 2025 05:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.435333
- Title: Multi-Objective Reinforcement Learning with Max-Min Criterion: A Game-Theoretic Approach
- Title(参考訳): Max-Min Criterionによる多目的強化学習:ゲーム理論的アプローチ
- Authors: Woohyeon Byeon, Giseung Park, Jongseong Chae, Amir Leshem, Youngchul Sung,
- Abstract要約: 最大最小多目的強化学習を2プレイヤーゼロサム正規化連続ゲームとして再構成する。
当社のアプローチは,グローバルな最終段階の収束を確保しつつ,政策更新を簡素化する。
深層強化学習の実装は,多くのMORL環境において,従来のベースラインよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 25.475842473998906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a provably convergent and practical framework for multi-objective reinforcement learning with max-min criterion. From a game-theoretic perspective, we reformulate max-min multi-objective reinforcement learning as a two-player zero-sum regularized continuous game and introduce an efficient algorithm based on mirror descent. Our approach simplifies the policy update while ensuring global last-iterate convergence. We provide a comprehensive theoretical analysis on our algorithm, including iteration complexity under both exact and approximate policy evaluations, as well as sample complexity bounds. To further enhance performance, we modify the proposed algorithm with adaptive regularization. Our experiments demonstrate the convergence behavior of the proposed algorithm in tabular settings, and our implementation for deep reinforcement learning significantly outperforms previous baselines in many MORL environments.
- Abstract(参考訳): 本稿では,最大値基準を用いた多目的強化学習のための,確率的に収束し,実践的な枠組みを提案する。
ゲーム理論の観点からは、最大最小多目的強化学習を2プレイヤーゼロサム正規化連続ゲームとして再構成し、ミラー降下に基づく効率的なアルゴリズムを導入する。
当社のアプローチは,グローバルな最終段階の収束を確保しつつ,政策更新を簡素化する。
提案アルゴリズムは,厳密かつ近似的なポリシ評価とサンプル複雑性境界の下での反復複雑性を含む,包括的な理論的解析を行う。
性能をさらに向上するため,適応正則化によるアルゴリズムの修正を行った。
実験では,提案アルゴリズムの表層環境における収束挙動を実証し,多くのMORL環境における深部強化学習の実装は,従来のベースラインよりも大幅に優れていた。
関連論文リスト
- Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [45.99743804547533]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning [0.0]
そこで我々は,人間の嗜好を潜在ベクトル値報酬関数としてモデル化する,嗜好に基づく多目的逆強化学習(MO-IRL)の理論的枠組みを提案する。
本研究は,実践的アライメント技術と理論的保証のギャップを埋め,アライメント行動の学習の原則的基盤を提供するものである。
論文 参考訳(メタデータ) (2025-05-17T06:09:13Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。