論文の概要: Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2407.16485v1
- Date: Tue, 23 Jul 2024 14:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:06:21.157536
- Title: Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning
- Title(参考訳): 実証学習による一般的な連続的制約の学習
- Authors: Baiyu Peng, Aude Billard,
- Abstract要約: 本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
- 参考スコア(独自算出の注目度): 8.361428709513476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning for a wide range of real-world tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. The majority of prior works limit themselves to learning simple linear constraints, or require strong knowledge of the true constraint parameterization or environmental model. To mitigate these problems, this paper presents a positive-unlabeled (PU) learning approach to infer a continuous, arbitrary and possibly nonlinear, constraint from demonstration. From a PU learning view, We treat all data in demonstrations as positive (feasible) data, and learn a (sub)-optimal policy to generate high-reward-winning but potentially infeasible trajectories, which serve as unlabeled data containing both feasible and infeasible states. Under an assumption on data distribution, a feasible-infeasible classifier (i.e., constraint model) is learned from the two datasets through a postprocessing PU learning technique. The entire method employs an iterative framework alternating between updating the policy, which generates and selects higher-reward policies, and updating the constraint model. Additionally, a memory buffer is introduced to record and reuse samples from previous iterations to prevent forgetting. The effectiveness of the proposed method is validated in two Mujoco environments, successfully inferring continuous nonlinear constraints and outperforming a baseline method in terms of constraint accuracy and policy safety.
- Abstract(参考訳): 幅広い現実世界のタスクの計画には、すべての制約を知って記述する必要がある。
しかし、これらの制約が未知であるか、正確に指定することが難しいインスタンスが存在する。
可能な解決策は、専門家のデモンストレーションから未知の制約を推測することである。
先行研究の大部分は、単純な線形制約を学ぶことや、真の制約パラメータ化や環境モデルについて強い知識を必要とすることに限定されている。
これらの問題を緩和するために,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
PU学習の観点からは、すべてのデータを実証的な(実現可能な)データとして扱うとともに、(サブ)最適ポリシーを学習し、高いリワードウィンディングと潜在的に実現不可能なトラジェクトリを生成し、実現不可能な状態と実用不可能な状態の両方を含むラベル付きデータとして機能する。
データ分散の仮定の下では、後処理PU学習技術により、2つのデータセットから実現不可能な分類器(すなわち制約モデル)が学習される。
この手法全体では、ポリシーを更新し、より高いリワードポリシーを生成し、選択し、制約モデルを更新する反復的なフレームワークが採用されている。
さらに、メモリバッファを導入して、以前のイテレーションからのサンプルを記録、再利用することで、忘れることを防ぐ。
提案手法の有効性は, 2つのムジョコ環境において検証され, 連続的な非線形制約を推定し, 制約精度と政策安全性の観点からベースライン法より優れていた。
関連論文リスト
- Positive-Unlabeled Constraint Learning (PUCL) for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations [8.361428709513476]
本稿では,実証から連続的な任意の制約関数を推論する,新しいPositive-Unlabeled Constraint Learning (PUCL)アルゴリズムを提案する。
フレームワーク内では、すべてのデータをポジティブな(実現可能な)データとして扱うとともに、潜在的に不可能なトラジェクトリを生成するための制御ポリシーを学ぶ。
連続的な非線形制約を推論し、転送し、制約精度とポリシー安全性の点で他のベースライン法より優れている。
論文 参考訳(メタデータ) (2024-08-03T01:09:48Z) - Adversarial Imitation Learning On Aggregated Data [0.0]
逆強化学習(IRL: Inverse Reinforcement Learning)は、いくつかの専門家による実証から最適なポリシーを学習し、適切な報酬関数を指定するという面倒なプロセスを避ける。
本稿では,AILAD(Adversarial Imitation Learning on Aggregated Data)と呼ばれる動的適応手法を用いて,これらの要件を除去する手法を提案する。
非線型報酬関数とそれに付随する最適ポリシーの両方を、敵対的枠組みを用いて共役的に学習する。
論文 参考訳(メタデータ) (2023-11-14T22:13:38Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Learning Implicitly with Noisy Data in Linear Arithmetic [94.66549436482306]
PAC-セマンティックスにおける暗黙学習を拡張し、線形算術の言語における間隔としきい値の不確実性を扱う。
最適線形プログラミング対象制約の学習に対する我々の暗黙的アプローチは、実際的な明示的アプローチよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-10-23T19:08:46Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。