論文の概要: Active Learning with Safety Constraints
- arxiv url: http://arxiv.org/abs/2206.11183v1
- Date: Wed, 22 Jun 2022 15:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:55:49.161201
- Title: Active Learning with Safety Constraints
- Title(参考訳): 安全制約によるアクティブラーニング
- Authors: Romain Camilleri, Andrew Wagenmaker, Jamie Morgenstern, Lalit Jain,
Kevin Jamieson
- Abstract要約: 対話型環境における安全な判断を学習することの複雑さについて検討する。
適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
- 参考スコア(独自算出の注目度): 25.258564629480063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning methods have shown great promise in reducing the number of
samples necessary for learning. As automated learning systems are adopted into
real-time, real-world decision-making pipelines, it is increasingly important
that such algorithms are designed with safety in mind. In this work we
investigate the complexity of learning the best safe decision in interactive
environments. We reduce this problem to a constrained linear bandits problem,
where our goal is to find the best arm satisfying certain (unknown) safety
constraints. We propose an adaptive experimental design-based algorithm, which
we show efficiently trades off between the difficulty of showing an arm is
unsafe vs suboptimal. To our knowledge, our results are the first on best-arm
identification in linear bandits with safety constraints. In practice, we
demonstrate that this approach performs well on synthetic and real world
datasets.
- Abstract(参考訳): アクティブな学習手法は、学習に必要なサンプルの数を減らすことに非常に有望である。
自動学習システムがリアルタイムな意思決定パイプラインに採用されるにつれて、そのようなアルゴリズムが安全を念頭に設計されることがますます重要になっている。
本研究では,対話環境における最良安全決定の学習の複雑さについて検討する。
我々はこの問題を、一定の(未知の)安全制約を満たす最適なアームを見つけることを目的として、制約付き線形包帯問題に還元する。
適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
我々の知る限り、我々の結果は安全制約のある線形包帯における最良腕識別における最初のものである。
実際、このアプローチが合成および実世界のデータセットでうまく機能することを実証する。
関連論文リスト
- Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Interactively Learning Preference Constraints in Linear Bandits [100.78514640066565]
我々は、既知の報酬と未知の制約で逐次意思決定を研究する。
応用として,運転シミュレーションにおいて,人間の嗜好を表現するための学習制約を検討する。
論文 参考訳(メタデータ) (2022-06-10T17:52:58Z) - Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning [24.56889192688925]
リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
論文 参考訳(メタデータ) (2021-12-23T00:44:38Z) - Best Arm Identification with Safety Constraints [3.7783523378336112]
マルチアームバンディット設定における最高の腕識別問題は、多くの実世界の意思決定問題の優れたモデルである。
安全クリティカルな環境でのベストアーム識別の課題について検討し、エージェントのゴールは、最も安全な選択肢を見つけることである。
本手法では,安全な学習が保証されるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-23T20:53:12Z) - Efficient falsification approach for autonomous vehicle validation using
a parameter optimisation technique based on reinforcement learning [6.198523595657983]
自律走行車(AV)の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているように見える。
交通参加者とダイナミックワールドの行動の不確実性は、先進的な自律システムにおいて反応を引き起こす。
本稿では,システム・アンダー・テストを評価するための効率的なファルシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T02:56:13Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。