Fugu-MT 論文翻訳(概要): Robust Constrained Reinforcement Learning

論文の概要: Robust Constrained Reinforcement Learning

arxiv url: http://arxiv.org/abs/2209.06866v1
Date: Wed, 14 Sep 2022 18:29:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 13:03:30.039096
Title: Robust Constrained Reinforcement Learning
Title（参考訳）: ロバスト制約付き強化学習
Authors: Yue Wang, Fei Miao, Shaofeng Zou
Abstract要約: 制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。目的は、不確実性セットにおけるすべてのMDPに対して、ユーティリティ/コストの制約が満たされることを保証し、不確実性セットに対する最悪の報酬パフォーマンスを最大化することである。
参考スコア（独自算出の注目度）: 21.316736188238806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Constrained reinforcement learning is to maximize the expected reward subject to constraints on utilities/costs. However, the training environment may not be the same as the test one, due to, e.g., modeling error, adversarial attack, non-stationarity, resulting in severe performance degradation and more importantly constraint violation. We propose a framework of robust constrained reinforcement learning under model uncertainty, where the MDP is not fixed but lies in some uncertainty set, the goal is to guarantee that constraints on utilities/costs are satisfied for all MDPs in the uncertainty set, and to maximize the worst-case reward performance over the uncertainty set. We design a robust primal-dual approach, and further theoretically develop guarantee on its convergence, complexity and robust feasibility. We then investigate a concrete example of $\delta$-contamination uncertainty set, design an online and model-free algorithm and theoretically characterize its sample complexity.
Abstract（参考訳）: 制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。しかし、トレーニング環境は、例えば、モデリングエラー、敵対的攻撃、非定常性などにより、パフォーマンスが著しく低下し、より重大な制約違反が生じるため、テスト環境と同一ではない可能性がある。我々は,モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。そこではmdpが固定されていないが不確実性セットにあるため,不確実性セット内のすべてのmdpに対してユーティリティ/コストの制約が満たされることを保証すること,不確実性セットに対する最悪の報奨性能を最大化することを目的とする。我々は,強固な原始双対的アプローチを設計し,その収束性,複雑性,頑健な実現可能性の保証を理論的に開発する。次に,$\delta$-contamination 不確かさ集合の具体例を調査し,オンラインおよびモデルフリーなアルゴリズムを設計し,そのサンプル複雑性を理論的に特徴付ける。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Conformal Mixed-Integer Constraint Learning with Feasibility Guarantees [0.3058340744328236]
Conformal Mixed-Integer Constraint Learningは、最適化問題におけるデータ駆動制約の確率論的実現可能性を保証する。我々は,C-MICLが目標レートを一貫して達成し,競争目標性能を維持し,既存の手法に比べて計算コストを大幅に削減することを示す。
論文参考訳（メタデータ） (2025-06-04T03:26:31Z)
Enforcing Hard Linear Constraints in Deep Learning Models with Decision Rules [8.098452803458253]
本稿では、入力依存線形等式とニューラルネットワーク出力の不等式制約を強制するモデルに依存しないフレームワークを提案する。このアーキテクチャは、予測精度のために訓練されたタスクネットワークと、実行時の決定ルールと堅牢な最適化を用いてトレーニングされた安全なネットワークを組み合わせることで、入力空間全体の実現可能性を保証する。
論文参考訳（メタデータ） (2025-05-20T03:09:44Z)
SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文参考訳（メタデータ） (2025-04-19T03:01:45Z)
From Data to Uncertainty Sets: a Machine Learning Approach [5.877778007271621]
我々は、堅牢な最適化を活用し、機械学習モデルの出力の不確実性に対する制約を保護する。我々は違反の可能性を強く保証する。合成計算実験では、この手法は他の手法よりも1桁小さい半径を持つ不確実性集合を必要とする。
論文参考訳（メタデータ） (2025-03-04T01:30:28Z)
Uncertainty separation via ensemble quantile regression [23.667247644930708]
本稿では,不確実性推定と分離のための新しい,スケーラブルなフレームワークを提案する。我々のフレームワークは大規模データセットにスケーラブルであり、合成ベンチマークで優れた性能を示す。
論文参考訳（メタデータ） (2024-12-18T11:15:32Z)
Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文参考訳（メタデータ） (2024-11-03T17:32:00Z)
Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling [18.93897922183304]
本稿では,ユーザの指示に従って画像が合成される条件付き画像生成の課題に焦点をあてる。報酬モデルからの不正確なフィードバックの悪影響を低減するために,不確実性を考慮した報酬モデルCtrl-Uを提案する。
論文参考訳（メタデータ） (2024-10-15T03:43:51Z)
End-to-End Conformal Calibration for Optimization Under Uncertainty [32.844953018302874]
本稿では,条件最適化のための不確実性推定を学習するためのエンドツーエンドフレームワークを開発する。さらに,部分凸ニューラルネットワークを用いた任意の凸不確実性集合の表現を提案する。我々のアプローチは2段階最適化によって一貫して改善される。
論文参考訳（メタデータ） (2024-09-30T17:38:27Z)
Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文参考訳（メタデータ） (2024-06-25T08:29:32Z)
Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文参考訳（メタデータ） (2023-12-28T18:28:23Z)
Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文参考訳（メタデータ） (2023-02-24T09:18:27Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文参考訳（メタデータ） (2023-01-30T00:37:06Z)
Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文参考訳（メタデータ） (2022-08-11T11:55:31Z)
Recursive Constraints to Prevent Instability in Constrained Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-01-20T02:33:24Z)
Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文参考訳（メタデータ） (2020-03-05T19:56:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。