論文の概要: Positive-Unlabeled Constraint Learning for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations
- arxiv url: http://arxiv.org/abs/2408.01622v2
- Date: Thu, 16 Jan 2025 10:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:07:58.426423
- Title: Positive-Unlabeled Constraint Learning for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations
- Title(参考訳): 専門家による非線形連続制約関数推定のための正非ラベル制約学習
- Authors: Baiyu Peng, Aude Billard,
- Abstract要約: 多様な現実世界のロボットタスクの計画には、すべての制約を知って記述する必要がある。
本稿では,実証から連続的な制約関数を推論する2段階の正非ラベル制約学習(PUCL)アルゴリズムを提案する。
連続的な非線形制約を推論し、制約精度と政策安全性の点で他のベースライン法より優れている。
- 参考スコア(独自算出の注目度): 8.361428709513476
- License:
- Abstract: Planning for diverse real-world robotic tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. This paper presents a novel two-step Positive-Unlabeled Constraint Learning (PUCL) algorithm to infer a continuous constraint function from demonstrations, without requiring prior knowledge of the true constraint parameterization or environmental model as existing works. We treat all data in demonstrations as positive (feasible) data, and learn a control policy to generate potentially infeasible trajectories, which serve as unlabeled data. The proposed two-step learning framework first identifies reliable infeasible data using a distance metric, and secondly learns a binary feasibility classifier (i.e., constraint function) from the feasible demonstrations and reliable infeasible data. The proposed method is flexible to learn complex-shaped constraint boundary and will not mistakenly classify demonstrations as infeasible as previous methods. The effectiveness of the proposed method is verified in four constrained environments, using a networked policy or a dynamical system policy. It successfully infers the continuous nonlinear constraints and outperforms other baseline methods in terms of constraint accuracy and policy safety. This work has been published in IEEE Robotics and Automation Letters (RA-L). Please refer to the final version at https://doi.org/10.1109/LRA.2024.3522756
- Abstract(参考訳): 多様な現実世界のロボットタスクの計画には、すべての制約を知って記述する必要がある。
しかし、これらの制約が未知であるか、正確に指定することが難しいインスタンスが存在する。
可能な解決策は、専門家のデモンストレーションから未知の制約を推測することである。
本稿では,制約パラメータ化や環境モデルの事前知識を必要とせず,実演から連続的な制約関数を推論する2段階の正非ラベル制約学習(PUCL)アルゴリズムを提案する。
実証におけるすべてのデータをポジティブな(実現可能な)データとして扱い、ラベルなしのデータとして機能する潜在的に実現不可能な軌跡を生成するための制御ポリシーを学ぶ。
提案した2段階学習フレームワークは、まず距離メトリックを用いて信頼できないデータを識別し、第2に、実現不可能な実演と信頼できないデータから二元的実現可能性分類器(すなわち制約関数)を学習する。
提案手法は複雑な制約境界の学習に柔軟であり,実証を従来の方法と誤って区別するものではない。
提案手法の有効性は,ネットワークポリシや動的システムポリシを用いて,制約のある4つの環境で検証される。
連続的な非線形制約を推論し、制約精度と政策安全性の点で他のベースライン法より優れている。
この研究はIEEE Robotics and Automation Letters (RA-L)に掲載されている。
最終版はhttps://doi.org/10.1109/LRA.2024.3522756を参照。
関連論文リスト
- UNIQ: Offline Inverse Q-learning for Avoiding Undesirable Demonstrations [11.666700714916065]
我々は、望ましくない実演を避ける政策としてオフライン学習の問題に対処する。
学習課題を学習方針と望ましくない政策との統計的距離を最大化するものとして定式化する。
我々のアルゴリズムUNIQは、逆Q-ラーニングフレームワークを構築し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-10-10T18:52:58Z) - Learning Constraint Network from Demonstrations via Positive-Unlabeled Learning with Memory Replay [8.361428709513476]
本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
論文 参考訳(メタデータ) (2024-07-23T14:00:18Z) - Bisimulation Learning [55.859538562698496]
我々は、大きな、潜在的に無限の状態空間を持つ状態遷移系の有限バイシミュレートを計算する。
提案手法は,実際に行われている他の最先端ツールよりも高速な検証結果が得られる。
論文 参考訳(メタデータ) (2024-05-24T17:11:27Z) - Data-Driven Reachability Analysis of Stochastic Dynamical Systems with
Conformal Inference [1.446438366123305]
共形推論を用いた離散時間力学系のデータ駆動型到達可能性解析について考察する。
複雑な閉ループ力学を持つ学習可能な制御系に着目する。
論文 参考訳(メタデータ) (2023-09-17T07:23:01Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Robot Learning with Crash Constraints [37.685515446816105]
失敗が望ましくないが破滅的でないロボットアプリケーションでは、多くのアルゴリズムは失敗から得られたデータを活用するのに苦労する。
これは通常、(i)失敗した実験が早めに終了すること、または(ii)取得したデータが不足または破損することによって引き起こされる。
我々は、失敗する振る舞いを制約に違反し、クラッシュ制約で学習する問題に対処するものとみなす。
論文 参考訳(メタデータ) (2020-10-16T23:56:35Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Constraints from Locally-Optimal Demonstrations under Cost
Function Uncertainty [6.950510860295866]
本稿では,最適化されたコスト関数が学習者に不確実な地域最適実証からパラメトリック制約を学習するアルゴリズムを提案する。
本手法では、混合整数線形プログラム(MILP)における実演のKKT最適条件を用いて、実演の局所的最適性に整合した制約を学習する。
7-DOFアームと四重項の制約を学習することで高次元制約とシステムの評価を行い、競合する制約学習手法よりも優れており、環境における新しい制約満足軌道の計画に効果的に利用できることを示す。
論文 参考訳(メタデータ) (2020-01-25T15:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。