論文の概要: Positive-Unlabeled Constraint Learning (PUCL) for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations
- arxiv url: http://arxiv.org/abs/2408.01622v1
- Date: Sat, 3 Aug 2024 01:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:20:31.908123
- Title: Positive-Unlabeled Constraint Learning (PUCL) for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations
- Title(参考訳): 専門家による非線形連続制約関数推定のためのPUCL(Positive-Unlabeled Constraint Learning)
- Authors: Baiyu Peng, Aude Billard,
- Abstract要約: 本稿では,実証から連続的な任意の制約関数を推論する,新しいPositive-Unlabeled Constraint Learning (PUCL)アルゴリズムを提案する。
フレームワーク内では、すべてのデータをポジティブな(実現可能な)データとして扱うとともに、潜在的に不可能なトラジェクトリを生成するための制御ポリシーを学ぶ。
連続的な非線形制約を推論し、転送し、制約精度とポリシー安全性の点で他のベースライン法より優れている。
- 参考スコア(独自算出の注目度): 8.361428709513476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning for a wide range of real-world robotic tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. This paper presents a novel Positive-Unlabeled Constraint Learning (PUCL) algorithm to infer a continuous arbitrary constraint function from demonstration, without requiring prior knowledge of the true constraint parameterization or environmental model as existing works. Within our framework, we treat all data in demonstrations as positive (feasible) data, and learn a control policy to generate potentially infeasible trajectories, which serve as unlabeled data. In each iteration, we first update the policy and then a two-step positive-unlabeled learning procedure is applied, where it first identifies reliable infeasible data using a distance metric, and secondly learns a binary feasibility classifier (i.e., constraint function) from the feasible demonstrations and reliable infeasible data. The proposed framework is flexible to learn complex-shaped constraint boundary and will not mistakenly classify demonstrations as infeasible as previous methods. The effectiveness of the proposed method is verified in three robotic tasks, using a networked policy or a dynamical system policy. It successfully infers and transfers the continuous nonlinear constraints and outperforms other baseline methods in terms of constraint accuracy and policy safety.
- Abstract(参考訳): 幅広い現実世界のロボットタスクの計画には、すべての制約を知って記述する必要がある。
しかし、これらの制約が未知であるか、正確に指定することが難しいインスタンスが存在する。
可能な解決策は、専門家のデモンストレーションから未知の制約を推測することである。
本稿では,従来の制約パラメータ化や環境モデルの事前知識を必要とせず,実証から連続的な任意の制約関数を推論する,ポジティブ・アンラベル制約学習(PUCL)アルゴリズムを提案する。
フレームワーク内では、すべてのデータをポジティブな(実現可能な)データとして扱うとともに、ラベルなしのデータとして機能する潜在的に不可能なトラジェクトリを生成するための制御ポリシーを学ぶ。
各イテレーションにおいて、まずポリシーを更新し、次に2段階の正の非ラベル学習手順を適用し、まず距離メトリックを用いて信頼できないデータを識別し、次に、実現不可能な実演と信頼できないデータから二元的可能性分類器(すなわち制約関数)を学習する。
提案するフレームワークは,複雑な制約境界の学習に柔軟であり,実証を従来の方法と誤って区別するものではない。
提案手法の有効性は,ネットワーク化ポリシや動的システムポリシを用いて,3つのロボットタスクで検証される。
連続的な非線形制約を推論し、転送し、制約精度とポリシー安全性の点で他のベースライン法より優れている。
関連論文リスト
- UNIQ: Offline Inverse Q-learning for Avoiding Undesirable Demonstrations [11.666700714916065]
我々は、望ましくない実演を避ける政策としてオフライン学習の問題に対処する。
学習課題を学習方針と望ましくない政策との統計的距離を最大化するものとして定式化する。
我々のアルゴリズムUNIQは、逆Q-ラーニングフレームワークを構築し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-10-10T18:52:58Z) - Adaptive Event-triggered Reinforcement Learning Control for Complex Nonlinear Systems [2.08099858257632]
連続時間非線形システムに対する適応型イベントトリガー強化学習制御を提案する。
本研究では, 明示的な学習トリガー条件を必要とせずに, トリガー条件の正確かつ効率的な決定が可能であることを示す。
論文 参考訳(メタデータ) (2024-09-29T20:42:19Z) - Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning [8.361428709513476]
本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
論文 参考訳(メタデータ) (2024-07-23T14:00:18Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - Learning Control Policies for Stochastic Systems with Reach-avoid
Guarantees [20.045860624444494]
本研究では,形式的リーチ回避保証付き離散時間非線形力学系における学習制御装置の問題点について検討する。
我々は,本研究で導入した新しい概念であるRASM(リーチ・アビド・スーパーマーチンゲール)の形で証明書を学習する。
当社のアプローチでは,コントロールポリシをスクラッチから学習したり,固定されたコントロールポリシのリーチ回避仕様を検証したり,事前訓練されたポリシを微調整したり,といった,いくつかの重要な問題を解決しています。
論文 参考訳(メタデータ) (2022-10-11T10:02:49Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learning Implicitly with Noisy Data in Linear Arithmetic [94.66549436482306]
PAC-セマンティックスにおける暗黙学習を拡張し、線形算術の言語における間隔としきい値の不確実性を扱う。
最適線形プログラミング対象制約の学習に対する我々の暗黙的アプローチは、実際的な明示的アプローチよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-10-23T19:08:46Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Constraints from Locally-Optimal Demonstrations under Cost
Function Uncertainty [6.950510860295866]
本稿では,最適化されたコスト関数が学習者に不確実な地域最適実証からパラメトリック制約を学習するアルゴリズムを提案する。
本手法では、混合整数線形プログラム(MILP)における実演のKKT最適条件を用いて、実演の局所的最適性に整合した制約を学習する。
7-DOFアームと四重項の制約を学習することで高次元制約とシステムの評価を行い、競合する制約学習手法よりも優れており、環境における新しい制約満足軌道の計画に効果的に利用できることを示す。
論文 参考訳(メタデータ) (2020-01-25T15:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。