論文の概要: Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2407.16485v1
- Date: Tue, 23 Jul 2024 14:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:06:21.157536
- Title: Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning
- Title(参考訳): 実証学習による一般的な連続的制約の学習
- Authors: Baiyu Peng, Aude Billard,
- Abstract要約: 本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
- 参考スコア(独自算出の注目度): 8.361428709513476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning for a wide range of real-world tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. The majority of prior works limit themselves to learning simple linear constraints, or require strong knowledge of the true constraint parameterization or environmental model. To mitigate these problems, this paper presents a positive-unlabeled (PU) learning approach to infer a continuous, arbitrary and possibly nonlinear, constraint from demonstration. From a PU learning view, We treat all data in demonstrations as positive (feasible) data, and learn a (sub)-optimal policy to generate high-reward-winning but potentially infeasible trajectories, which serve as unlabeled data containing both feasible and infeasible states. Under an assumption on data distribution, a feasible-infeasible classifier (i.e., constraint model) is learned from the two datasets through a postprocessing PU learning technique. The entire method employs an iterative framework alternating between updating the policy, which generates and selects higher-reward policies, and updating the constraint model. Additionally, a memory buffer is introduced to record and reuse samples from previous iterations to prevent forgetting. The effectiveness of the proposed method is validated in two Mujoco environments, successfully inferring continuous nonlinear constraints and outperforming a baseline method in terms of constraint accuracy and policy safety.
- Abstract(参考訳): 幅広い現実世界のタスクの計画には、すべての制約を知って記述する必要がある。
しかし、これらの制約が未知であるか、正確に指定することが難しいインスタンスが存在する。
可能な解決策は、専門家のデモンストレーションから未知の制約を推測することである。
先行研究の大部分は、単純な線形制約を学ぶことや、真の制約パラメータ化や環境モデルについて強い知識を必要とすることに限定されている。
これらの問題を緩和するために,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
PU学習の観点からは、すべてのデータを実証的な(実現可能な)データとして扱うとともに、(サブ)最適ポリシーを学習し、高いリワードウィンディングと潜在的に実現不可能なトラジェクトリを生成し、実現不可能な状態と実用不可能な状態の両方を含むラベル付きデータとして機能する。
データ分散の仮定の下では、後処理PU学習技術により、2つのデータセットから実現不可能な分類器(すなわち制約モデル)が学習される。
この手法全体では、ポリシーを更新し、より高いリワードポリシーを生成し、選択し、制約モデルを更新する反復的なフレームワークが採用されている。
さらに、メモリバッファを導入して、以前のイテレーションからのサンプルを記録、再利用することで、忘れることを防ぐ。
提案手法の有効性は, 2つのムジョコ環境において検証され, 連続的な非線形制約を推定し, 制約精度と政策安全性の観点からベースライン法より優れていた。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Positive-Unlabeled Constraint Learning for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations [8.361428709513476]
多様な現実世界のロボットタスクの計画には、すべての制約を知って記述する必要がある。
本稿では,実証から連続的な制約関数を推論する2段階の正非ラベル制約学習(PUCL)アルゴリズムを提案する。
連続的な非線形制約を推論し、制約精度と政策安全性の点で他のベースライン法より優れている。
論文 参考訳(メタデータ) (2024-08-03T01:09:48Z) - Learning Adversarial MDPs with Stochastic Hard Constraints [37.24692425018]
我々は,制約付きマルコフ決定過程(CMDP)におけるオンライン学習について,敵対的損失と厳しい制約を伴って検討した。
我々の研究は、敵の損失と厳しい制約の両方にかかわるCMDPを初めて研究した。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Constrained Policy Gradient Method for Safe and Fast Reinforcement
Learning: a Neural Tangent Kernel Based Approach [6.316693022958221]
本稿では,安全な学習のための制約付きポリシー勾配アルゴリズムを提案する。
安全な学習のための制約を次の手順で導入する。
制約学習の効率は、カルトポールとルナーランダーのオープンAI環境において、浅い広いReLUネットワークで実証された。
論文 参考訳(メタデータ) (2021-07-19T20:25:15Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。