論文の概要: Dual-Objective Reinforcement Learning with Novel Hamilton-Jacobi-Bellman Formulations
- arxiv url: http://arxiv.org/abs/2506.16016v1
- Date: Thu, 19 Jun 2025 04:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.937913
- Title: Dual-Objective Reinforcement Learning with Novel Hamilton-Jacobi-Bellman Formulations
- Title(参考訳): ハミルトン・ヤコビ・ベルマン式を用いた二重目的強化学習
- Authors: William Sharpless, Dylan Hirsch, Sander Tonkens, Nikhil Shinde, Sylvia Herbert,
- Abstract要約: 強化学習(RL)における厳しい制約は、しばしば政策性能を低下させる。
ハミルトン・ヤコビ方程式とRLを結びつける最近の進歩を拡張し、二重目的満足度に対する2つの新しい値関数を提案する。
本稿では,これらの問題を解くための近似政策最適化(DO-HJ-PPO)のバリエーションを提案する。
- 参考スコア(独自算出の注目度): 0.5937476291232802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hard constraints in reinforcement learning (RL), whether imposed via the reward function or the model architecture, often degrade policy performance. Lagrangian methods offer a way to blend objectives with constraints, but often require intricate reward engineering and parameter tuning. In this work, we extend recent advances that connect Hamilton-Jacobi (HJ) equations with RL to propose two novel value functions for dual-objective satisfaction. Namely, we address: (1) the Reach-Always-Avoid problem - of achieving distinct reward and penalty thresholds - and (2) the Reach-Reach problem - of achieving thresholds of two distinct rewards. In contrast with temporal logic approaches, which typically involve representing an automaton, we derive explicit, tractable Bellman forms in this context by decomposing our problem into reach, avoid, and reach-avoid problems, as to leverage these aforementioned recent advances. From a mathematical perspective, the Reach-Always-Avoid and Reach-Reach problems are complementary and fundamentally different from standard sum-of-rewards problems and temporal logic problems, providing a new perspective on constrained decision-making. We leverage our analysis to propose a variation of Proximal Policy Optimization (DO-HJ-PPO), which solves these problems. Across a range of tasks for safe-arrival and multi-target achievement, we demonstrate that DO-HJ-PPO produces qualitatively distinct behaviors from previous approaches and out-competes a number of baselines in various metrics.
- Abstract(参考訳): 強化学習(RL)の厳しい制約は、報酬関数やモデルアーキテクチャによって課せられるが、しばしば政策性能を低下させる。
ラグランジアン法は、目的と制約をブレンドする方法を提供するが、複雑な報酬工学とパラメータチューニングを必要とすることが多い。
本研究では、ハミルトン・ヤコビ方程式とRLを結びつける最近の進歩を拡張し、二重目的満足度のための2つの新しい値関数を提案する。
言い換えると、(1)報酬とペナルティの閾値を個別に達成するリーチ-Always-Avoid問題、(2)報酬とペナルティの閾値を個別に達成するリーチ-Reach問題、である。
一般にオートマトンを表現している時間論理アプローチとは対照的に、上記の進歩を活用するために、この問題を到達、回避、到達不可の問題に分解することで、この文脈で明示的で引き出すことのできるベルマン形式を導出する。
数学的な見地からすると、リーチ・アルウェイドとリーチ・リーチの問題は相補的であり、標準的な総和問題や時間論理問題と根本的に異なる。
我々は,これらの問題を解くための近似政策最適化(DO-HJ-PPO)のバリエーションを提案する。
安全照準およびマルチターゲット達成のためのタスクの範囲内で,DO-HJ-PPOが従来の手法と定性的に異なる振る舞いを生じさせ,様々な指標において多くのベースラインに勝っていることを示す。
関連論文リスト
- Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
物体検出と電子健康記録解析の実験は,我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Taming Lagrangian Chaos with Multi-Objective Reinforcement Learning [0.0]
2次元複素流中における2つの活性粒子の問題は、対の分散速度とエネルギー消費の両方を最小化する多目的目標を持つ。
本稿では,多目的強化学習(MORL)を用いて,スキャラライズ手法とQ-ラーニングアルゴリズムを組み合わせることで,様々な水泳速度を持つラグランジアンドリフトの課題に対処する。
論文 参考訳(メタデータ) (2022-12-19T16:50:58Z) - UNIFY: a Unified Policy Designing Framework for Solving Constrained
Optimization Problems with Machine Learning [18.183339583346005]
複雑な意思決定問題に対するソリューションポリシーを設計するための統一的な枠組みを提案する。
我々のアプローチは、制約のないMLモデルとCO問題という2つの段階におけるポリシーの巧妙な分解に依存している。
本手法の有効性を,エネルギー管理システムと包括的要件付き集合マルチカバーの2つの実践的問題に対して示す。
論文 参考訳(メタデータ) (2022-10-25T14:09:24Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。