論文の概要: Learning Safety Constraints From Demonstration Using One-Class Decision
Trees
- arxiv url: http://arxiv.org/abs/2312.08837v1
- Date: Thu, 14 Dec 2023 11:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:48:32.455863
- Title: Learning Safety Constraints From Demonstration Using One-Class Decision
Trees
- Title(参考訳): 一級決定木を用いた実演による安全制約の学習
- Authors: Mattijs Baert, Sam Leroux, Pieter Simoens
- Abstract要約: 本稿では,一級決定木を利用して専門家によるデモンストレーションから学習を容易にする手法を提案する。
学習された制約は、その後、オラクル制約強化学習フレームワークに適用される。
他の手法とは対照的に,本手法は安全クリティカルな環境において重要な特徴である制約の解釈可能な表現を提供する。
- 参考スコア(独自算出の注目度): 1.81343777902022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment of autonomous agents with human values is a pivotal challenge
when deploying these agents within physical environments, where safety is an
important concern. However, defining the agent's objective as a reward and/or
cost function is inherently complex and prone to human errors. In response to
this challenge, we present a novel approach that leverages one-class decision
trees to facilitate learning from expert demonstrations. These decision trees
provide a foundation for representing a set of constraints pertinent to the
given environment as a logical formula in disjunctive normal form. The learned
constraints are subsequently employed within an oracle constrained
reinforcement learning framework, enabling the acquisition of a safe policy. In
contrast to other methods, our approach offers an interpretable representation
of the constraints, a vital feature in safety-critical environments. To
validate the effectiveness of our proposed method, we conduct experiments in
synthetic benchmark domains and a realistic driving environment.
- Abstract(参考訳): 安全が重要な関心事である物理的環境にこれらのエージェントを配置する場合、自律的なエージェントと人間の価値のアライメントは重要な課題である。
しかし、報酬やコスト関数としてエージェントの目的を定義することは本質的に複雑であり、ヒューマンエラーを起こしやすい。
この課題に応えて,一級決定木を活用し,専門家によるデモンストレーションから学ぶことを容易にする新しいアプローチを提案する。
これらの決定木は、与えられた環境に関連する制約の集合を、可分正規形式の論理式として表現する基盤を提供する。
学習制約はその後、オラクル制約強化学習フレームワークに採用され、安全なポリシーの取得を可能にする。
他の手法とは対照的に,本手法は安全クリティカルな環境において重要な特徴である制約の解釈可能な表現を提供する。
提案手法の有効性を検証するため,合成ベンチマークドメインと現実的な運転環境を用いて実験を行った。
関連論文リスト
- Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming [4.825619788907192]
本稿では,メタラーニングアプローチ(ラーニング・トゥ・ラーン)のレンズを通して制約された問題を解くことによって,非定常環境における安全性を確保するためのユニークな課題について考察する。
まず,複数タスクにまたがるコンベックス制約付きポリシー更新を連続的に採用し,エンドツーエンドの差別化を可能にすることで,制約のあるシナリオにおけるメタラーニングを可能にする。
論文 参考訳(メタデータ) (2023-12-15T21:55:43Z) - Risk-Aware Continuous Control with Neural Contextual Bandits [8.911816419902427]
本稿では,コンテキスト的盗聴問題に対するリスク認識型意思決定フレームワークを提案する。
私たちのフレームワークは、さまざまなリスクレベルに対応し、パフォーマンスに対する制約満足度を効果的にバランスするように設計されています。
5Gモバイルネットワークを含む実世界のユースケースで,我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2023-12-15T17:16:04Z) - Maximum Causal Entropy Inverse Constrained Reinforcement Learning [3.409089945290584]
本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-04T14:18:19Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。