Fugu-MT 論文翻訳(概要): Provably Efficient Exploration in Inverse Constrained Reinforcement Learning

論文の概要: Provably Efficient Exploration in Inverse Constrained Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.15963v4
Date: Fri, 16 May 2025 09:40:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:11.268632
Title: Provably Efficient Exploration in Inverse Constrained Reinforcement Learning
Title（参考訳）: 逆制約強化学習における探索の効率化
Authors: Bo Yue, Jian Li, Guiliang Liu,
Abstract要約: 逆制約強化学習(Inverse Constrained Reinforcement Learning)は、複雑な環境で実現可能な制約を回復するための一般的な解法である。本稿では,このギャップを埋めるため,効率的なサンプリングを行うための戦略的探索フレームワークを提案する。効率的な制約推論を実現するための探索アルゴリズムを2つ導入する。
参考スコア（独自算出の注目度）: 12.178081346315523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing objective functions subject to constraints is fundamental in many real-world applications. However, these constraints are often not readily defined and must be inferred from expert agent behaviors, a problem known as Inverse Constraint Inference. Inverse Constrained Reinforcement Learning (ICRL) is a common solver for recovering feasible constraints in complex environments, relying on training samples collected from interactive environments. However, the efficacy and efficiency of current sampling strategies remain unclear. We propose a strategic exploration framework for sampling with guaranteed efficiency to bridge this gap. By defining the feasible cost set for ICRL problems, we analyze how estimation errors in transition dynamics and the expert policy influence the feasibility of inferred constraints. Based on this analysis, we introduce two exploratory algorithms to achieve efficient constraint inference via 1) dynamically reducing the bounded aggregate error of cost estimations or 2) strategically constraining the exploration policy around plausibly optimal ones. Both algorithms are theoretically grounded with tractable sample complexity, and their performance is validated empirically across various environments.
Abstract（参考訳）: 制約を受ける対象関数の最適化は多くの実世界のアプリケーションにおいて基本である。しかしながら、これらの制約はしばしば容易に定義されず、専門家のエージェントの振る舞いから推論されなければならない。 Inverse Constrained Reinforcement Learning (ICRL) は、複雑な環境において、対話型環境から収集したトレーニングサンプルに依存して、実現可能な制約を回復するための一般的な解法である。しかし、現在のサンプリング戦略の有効性と効率性は未だ不明である。本稿では,このギャップを埋めるため,効率的なサンプリングを行うための戦略的探索フレームワークを提案する。 ICRL問題に対する実現可能なコストセットを定義することにより、遷移力学およびエキスパートポリシーにおける推定誤差が、推論された制約の実現可能性にどのように影響するかを分析する。この分析に基づいて,効率的な制約推論を実現するための探索アルゴリズムを2つ導入する。 1)コスト見積の有界集合誤差を動的に減少させるか 2【適度に最適なものに関する探索政策を戦略的に制約する】どちらのアルゴリズムも理論的には抽出可能なサンプルの複雑さに基礎を置いており、その性能は様々な環境で実証的に検証されている。

関連論文リスト

Learning to Explore: An In-Context Learning Approach for Pure Exploration [23.16863295063427]
本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説試験問題について検討する。 In-Context Pure Exploration (ICPE, In-Context Pure Exploration) は, Transformer を用いて経験から直接探索戦略を学習する,コンテキスト内学習手法である。 ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
論文参考訳（メタデータ） (2025-06-02T17:04:50Z)
Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:48Z)
On The Sample Complexity Bounds In Bilevel Reinforcement Learning [36.239015146313136]
二段階強化学習(BRL)は、生成的AIアライメントを研究するための強力な数学的枠組みとして登場した。 BRL に対する最初のサンプル複雑性結果を示し,エプシロン-4$ の限界を達成した。この結果は、標準的な二段階最適化問題にまで拡張され、実際的な意味に関する興味深い理論的な貢献をもたらす。
論文参考訳（メタデータ） (2025-03-22T04:22:04Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
Evolutionary Algorithm with Detection Region Method for Constrained Multi-Objective Problems with Binary Constraints [9.764702512419946]
本稿では,検出領域法に基づくDRMCMOと呼ばれる新しいアルゴリズムを提案する。 DRMCMOでは、検出領域は収束を高めるために実現可能なソリューションを動的に監視し、住民が局所的最適から逃れるのを助ける。バイナリ制約のあるCMOPのベンチマークテスト問題として、既存の3つのテストスイートを変更しました。
論文参考訳（メタデータ） (2024-11-13T08:39:04Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文参考訳（メタデータ） (2023-12-28T18:28:23Z)
Adaptive trajectory-constrained exploration strategy for deep reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。 DRLの最適軌道制約探索法を提案する。 2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文参考訳（メタデータ） (2023-12-27T07:57:15Z)
Controlling Continuous Relaxation for Combinatorial Optimization [0.0]
最適化のための教師なし学習解決器(CO)は、連続緩和戦略を用いてソフトソリューションを生成するニューラルネットワークを訓練する。本研究では,ul-based solverの学習手法であるContinuous Relaxation Anneal(CRA)戦略を紹介する。
論文参考訳（メタデータ） (2023-09-29T04:23:58Z)
Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2023-04-19T03:54:31Z)
Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文参考訳（メタデータ） (2022-11-08T04:06:23Z)
Exploring Viable Algorithmic Options for Learning from Demonstration (LfD): A Parameterized Complexity Approach [0.0]
本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
論文参考訳（メタデータ） (2022-05-10T15:54:06Z)
A Globally Convergent Evolutionary Strategy for Stochastic Constrained Optimization with Applications to Reinforcement Learning [0.6445605125467573]
進化的戦略は、強化学習における複雑な最適化問題に対して、競合する性能のレベルを達成することが示されている。しかし、制約された問題を最適化する進化戦略の収束保証は文献に欠けている。
論文参考訳（メタデータ） (2022-02-21T17:04:51Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文参考訳（メタデータ） (2021-12-27T02:53:44Z)
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文参考訳（メタデータ） (2021-07-13T21:39:21Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Constrained Reinforcement Learning for Dynamic Optimization under Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。 DRTOの産業応用における主要なボトルネックは、不確実性の存在である。これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-06-04T10:17:35Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。