論文の概要: Provably Efficient Exploration in Inverse Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.15963v2
- Date: Tue, 1 Oct 2024 02:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 18:04:33.317985
- Title: Provably Efficient Exploration in Inverse Constrained Reinforcement Learning
- Title(参考訳): 逆制約強化学習における探索の効率化
- Authors: Bo Yue, Jian Li, Guiliang Liu,
- Abstract要約: 逆制約強化学習(Inverse Constrained Reinforcement Learning)は、データ駆動方式で専門家によるデモンストレーションから制約を回復する。
効率性を保証する戦略的探索フレームワークを導入する。
そこで本研究では,効率的な制約推論を実現するための探索アルゴリズムを2つ提案する。
- 参考スコア(独自算出の注目度): 12.178081346315523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To obtain the optimal constraints in complex environments, Inverse Constrained Reinforcement Learning (ICRL) seeks to recover these constraints from expert demonstrations in a data-driven manner. Existing ICRL algorithms collect training samples from an interactive environment. However, the efficacy and efficiency of these sampling strategies remain unknown. To bridge this gap, we introduce a strategic exploration framework with guaranteed efficiency. Specifically, we define a feasible constraint set for ICRL problems and investigate how expert policy and environmental dynamics influence the optimality of constraints. Motivated by our findings, we propose two exploratory algorithms to achieve efficient constraint inference via 1) dynamically reducing the bounded aggregate error of cost estimation and 2) strategically constraining the exploration policy. Both algorithms are theoretically grounded with tractable sample complexity. We empirically demonstrate the performance of our algorithms under various environments.
- Abstract(参考訳): 複雑な環境における最適制約を得るために、逆制約強化学習(ICRL)は、専門家による実証からデータ駆動方式でこれらの制約を回復しようと試みている。
既存のICRLアルゴリズムは対話型環境からトレーニングサンプルを収集する。
しかし,これらのサンプリング手法の有効性と有効性は未だ不明である。
このギャップを埋めるために、我々は効率性を保証する戦略的探索フレームワークを導入する。
具体的には、ICRL問題に対して実行可能な制約セットを定義し、専門家の政策と環境力学が制約の最適性にどのように影響するかを検討する。
そこで本研究では,効率的な制約推論を実現するための2つの探索アルゴリズムを提案する。
1【コスト推定の有界集合誤差の動的低減】
2)探索政策を戦略的に制約する。
どちらのアルゴリズムも理論的には、抽出可能なサンプルの複雑さに基礎を置いている。
我々は,様々な環境下でのアルゴリズムの性能を実証的に実証した。
関連論文リスト
- Evolutionary Algorithm with Detection Region Method for Constrained Multi-Objective Problems with Binary Constraints [9.764702512419946]
本稿では,検出領域法に基づくDRMCMOと呼ばれる新しいアルゴリズムを提案する。
DRMCMOでは、検出領域は収束を高めるために実現可能なソリューションを動的に監視し、住民が局所的最適から逃れるのを助ける。
バイナリ制約のあるCMOPのベンチマークテスト問題として、既存の3つのテストスイートを変更しました。
論文 参考訳(メタデータ) (2024-11-13T08:39:04Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Controlling Continuous Relaxation for Combinatorial Optimization [0.0]
最適化のための教師なし学習解決器(CO)は、連続緩和戦略を用いてソフトソリューションを生成するニューラルネットワークを訓練する。
本研究では,ul-based solverの学習手法であるContinuous Relaxation Anneal(CRA)戦略を紹介する。
論文 参考訳(メタデータ) (2023-09-29T04:23:58Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。