論文の概要: Amortized Safe Active Learning for Real-Time Data Acquisition: Pretrained Neural Policies from Simulated Nonparametric Functions
- arxiv url: http://arxiv.org/abs/2501.15458v2
- Date: Mon, 12 May 2025 09:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:12.734207
- Title: Amortized Safe Active Learning for Real-Time Data Acquisition: Pretrained Neural Policies from Simulated Nonparametric Functions
- Title(参考訳): Amortized Safe Active Learning for Real-Time Data Acquisition: Pretrained Neural Policies from Simulated Nonparametric Functions (特集:情報ネットワーク)
- Authors: Cen-You Li, Marc Toussaint, Barbara Rakitsch, Christoph Zimmer,
- Abstract要約: 我々は、高価なオンライン計算を事前訓練されたニューラルポリシーで置き換える、償却された安全なALフレームワークを提案する。
我々のフレームワークはモジュール化されており、安全要件を省略することにより、制約のない、時間に敏感なALタスクに適応することができる。
- 参考スコア(独自算出の注目度): 23.406516455945653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe active learning (AL) is a sequential scheme for learning unknown systems while respecting safety constraints during data acquisition. Existing methods often rely on Gaussian processes (GPs) to model the task and safety constraints, requiring repeated GP updates and constrained acquisition optimization-incurring in significant computations which are challenging for real-time decision-making. We propose an amortized safe AL framework that replaces expensive online computations with a pretrained neural policy. Inspired by recent advances in amortized Bayesian experimental design, we turn GPs into a pretraining simulator. We train our policy prior to the AL deployment on simulated nonparametric functions, using Fourier feature-based GP sampling and a differentiable, safety-aware acquisition objective. At deployment, our policy selects safe and informative queries via a single forward pass, eliminating the need for GP inference or constrained optimization. This leads to substantial speed improvements while preserving safety and learning quality. Our framework is modular and can be adapted to unconstrained, time-sensitive AL tasks by omitting the safety requirement.
- Abstract(参考訳): 安全なアクティブラーニング(AL)は、データ取得時の安全制約を尊重しながら未知のシステムを学ぶためのシーケンシャルなスキームである。
既存の手法は、タスクと安全性の制約をモデル化するためにしばしばガウス過程(GP)に依存し、繰り返しGP更新と、リアルタイムな意思決定に困難である重要な計算における制約付き取得最適化を必要とする。
我々は、高価なオンライン計算を事前訓練されたニューラルポリシーで置き換える、償却された安全なALフレームワークを提案する。
退化ベイズの実験設計の最近の進歩に触発されて、GPを事前学習シミュレータにする。
我々は、フーリエ特徴量に基づくGPサンプリングと、識別可能で安全性に配慮した取得目標を用いて、シミュレーションされた非パラメトリック関数にALを配置する前にポリシーを訓練する。
デプロイメントでは,GP推論や制約付き最適化の必要性を排除し,単一のフォワードパスを介して安全かつ情報的なクエリを選択する。
これにより、安全性と学習品質を保ちながら、大幅にスピードが向上する。
我々のフレームワークはモジュール化されており、安全要件を省略することにより、制約のない、時間に敏感なALタスクに適応することができる。
関連論文リスト
- Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Policy Improvement in Constrained Markov Decision Processes [10.518340300810504]
本稿では,形式的要件の集合からの報酬形成と安全なポリシー更新という2つの課題を解くことで,合成問題の解決法を提案する。
前者に対しては,タスク仕様に準拠したスカラー報酬信号を定義する自動報酬生成手法を提案する。
後者では,高信頼度保証を伴う安全な方法でポリシーが改善されることを保証するアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-10-20T13:29:32Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning [24.56889192688925]
リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
論文 参考訳(メタデータ) (2021-12-23T00:44:38Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。