Fugu-MT 論文翻訳(概要): Scale-Invariant Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning

論文の概要: Scale-Invariant Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.00282v1
Date: Fri, 1 Mar 2024 04:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 18:03:32.698848
Title: Scale-Invariant Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning
Title（参考訳）: 制約付き多目的強化学習のためのスケール不変勾配アグリゲーション
Authors: Dohyeong Kim, Mineui Hong, Jeongho Park, Songhwai Oh
Abstract要約: 制約付き多目的グラディエントアグリゲータ(CoMOGA)という制約付きMORLアルゴリズムを提案する。複数の目的と制約を同時に扱うことの難しさを認識し、CoMOGAは元のCMORL問題を制約付き最適化問題に緩和する。提案手法は,事前定義された制約を満たすことなく,局所的なパレート最適ポリシーに収束することを示す。
参考スコア（独自算出の注目度）: 14.469211624761238
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-objective reinforcement learning (MORL) aims to find a set of Pareto optimal policies to cover various preferences. However, to apply MORL in real-world applications, it is important to find policies that are not only Pareto optimal but also satisfy pre-defined constraints for safety. To this end, we propose a constrained MORL (CMORL) algorithm called Constrained Multi-Objective Gradient Aggregator (CoMOGA). Recognizing the difficulty of handling multiple objectives and constraints concurrently, CoMOGA relaxes the original CMORL problem into a constrained optimization problem by transforming the objectives into additional constraints. This novel transformation process ensures that the converted constraints are invariant to the objective scales while having the same effect as the original objectives. We show that the proposed method converges to a local Pareto optimal policy while satisfying the predefined constraints. Empirical evaluations across various tasks show that the proposed method outperforms other baselines by consistently meeting constraints and demonstrating invariance to the objective scales.
Abstract（参考訳）: 多目的強化学習(morl:multi-objective reinforcement learning)は、様々な好みをカバーするためのパレート最適ポリシーのセットを見つけることを目的としている。しかしながら、実世界のアプリケーションに適用するには、パレート最適であるだけでなく、安全のための事前定義された制約を満たすポリシーを見つけることが重要である。この目的のために,制約付きMORL(CMORL)アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoMOGA)を提案する。複数の目的と制約を同時に扱うことの難しさを認識したCoMOGAは、目的を新たな制約に変換することにより、元のCMORL問題を制約付き最適化問題に緩和する。この新しい変換プロセスは、変換された制約が、元の目的と同じ効果を持ちながら、目的スケールに不変であることを保証する。提案手法は,事前定義された制約を満たしながら,局所パレート最適方針に収束することを示す。種々の課題に対する実証的な評価は,提案手法が制約を一貫して満たし,目的尺度に不変性を示すことによって,他の基準よりも優れていることを示す。

関連論文リスト

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文参考訳（メタデータ） (2025-05-29T17:56:05Z)
C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文参考訳（メタデータ） (2024-10-03T06:13:56Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文参考訳（メタデータ） (2024-05-28T11:41:41Z)
Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:42:10Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文参考訳（メタデータ） (2023-12-28T18:28:23Z)
Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文参考訳（メタデータ） (2023-12-23T00:55:09Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文参考訳（メタデータ） (2021-10-06T14:17:09Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文参考訳（メタデータ） (2020-03-20T17:26:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。