論文の概要: Provably Efficient Exploration in Inverse Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.15963v4
- Date: Fri, 16 May 2025 09:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:11.268632
- Title: Provably Efficient Exploration in Inverse Constrained Reinforcement Learning
- Title(参考訳): 逆制約強化学習における探索の効率化
- Authors: Bo Yue, Jian Li, Guiliang Liu,
- Abstract要約: 逆制約強化学習(Inverse Constrained Reinforcement Learning)は、複雑な環境で実現可能な制約を回復するための一般的な解法である。
本稿では,このギャップを埋めるため,効率的なサンプリングを行うための戦略的探索フレームワークを提案する。
効率的な制約推論を実現するための探索アルゴリズムを2つ導入する。
- 参考スコア(独自算出の注目度): 12.178081346315523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing objective functions subject to constraints is fundamental in many real-world applications. However, these constraints are often not readily defined and must be inferred from expert agent behaviors, a problem known as Inverse Constraint Inference. Inverse Constrained Reinforcement Learning (ICRL) is a common solver for recovering feasible constraints in complex environments, relying on training samples collected from interactive environments. However, the efficacy and efficiency of current sampling strategies remain unclear. We propose a strategic exploration framework for sampling with guaranteed efficiency to bridge this gap. By defining the feasible cost set for ICRL problems, we analyze how estimation errors in transition dynamics and the expert policy influence the feasibility of inferred constraints. Based on this analysis, we introduce two exploratory algorithms to achieve efficient constraint inference via 1) dynamically reducing the bounded aggregate error of cost estimations or 2) strategically constraining the exploration policy around plausibly optimal ones. Both algorithms are theoretically grounded with tractable sample complexity, and their performance is validated empirically across various environments.
- Abstract(参考訳): 制約を受ける対象関数の最適化は多くの実世界のアプリケーションにおいて基本である。
しかしながら、これらの制約はしばしば容易に定義されず、専門家のエージェントの振る舞いから推論されなければならない。
Inverse Constrained Reinforcement Learning (ICRL) は、複雑な環境において、対話型環境から収集したトレーニングサンプルに依存して、実現可能な制約を回復するための一般的な解法である。
しかし、現在のサンプリング戦略の有効性と効率性は未だ不明である。
本稿では,このギャップを埋めるため,効率的なサンプリングを行うための戦略的探索フレームワークを提案する。
ICRL問題に対する実現可能なコストセットを定義することにより、遷移力学およびエキスパートポリシーにおける推定誤差が、推論された制約の実現可能性にどのように影響するかを分析する。
この分析に基づいて,効率的な制約推論を実現するための探索アルゴリズムを2つ導入する。
1)コスト見積の有界集合誤差を動的に減少させるか
2【適度に最適なものに関する探索政策を戦略的に制約する】
どちらのアルゴリズムも理論的には抽出可能なサンプルの複雑さに基礎を置いており、その性能は様々な環境で実証的に検証されている。
関連論文リスト
- On The Sample Complexity Bounds In Bilevel Reinforcement Learning [36.239015146313136]
二段階強化学習(BRL)は、生成的AIアライメントを研究するための強力な数学的枠組みとして登場した。
BRL に対する最初のサンプル複雑性結果を示し,エプシロン-4$ の限界を達成した。
この結果は、標準的な二段階最適化問題にまで拡張され、実際的な意味に関する興味深い理論的な貢献をもたらす。
論文 参考訳(メタデータ) (2025-03-22T04:22:04Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Evolutionary Algorithm with Detection Region Method for Constrained Multi-Objective Problems with Binary Constraints [9.764702512419946]
本稿では,検出領域法に基づくDRMCMOと呼ばれる新しいアルゴリズムを提案する。
DRMCMOでは、検出領域は収束を高めるために実現可能なソリューションを動的に監視し、住民が局所的最適から逃れるのを助ける。
バイナリ制約のあるCMOPのベンチマークテスト問題として、既存の3つのテストスイートを変更しました。
論文 参考訳(メタデータ) (2024-11-13T08:39:04Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Controlling Continuous Relaxation for Combinatorial Optimization [0.0]
最適化のための教師なし学習解決器(CO)は、連続緩和戦略を用いてソフトソリューションを生成するニューラルネットワークを訓練する。
本研究では,ul-based solverの学習手法であるContinuous Relaxation Anneal(CRA)戦略を紹介する。
論文 参考訳(メタデータ) (2023-09-29T04:23:58Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。