Fugu-MT 論文翻訳(概要): Global Safe Sequential Learning via Efficient Knowledge Transfer

論文の概要: Global Safe Sequential Learning via Efficient Knowledge Transfer

arxiv url: http://arxiv.org/abs/2402.14402v1
Date: Thu, 22 Feb 2024 09:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 15:42:07.537744
Title: Global Safe Sequential Learning via Efficient Knowledge Transfer
Title（参考訳）: 効率的な知識伝達によるグローバルセーフシーケンス学習
Authors: Cen-You Li, Olaf Duennbier, Marc Toussaint, Barbara Rakitsch, Christoph Zimmer
Abstract要約: 多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。安全性の学習を促進するために,安全なシーケンシャル学習を提案する。
参考スコア（独自算出の注目度）: 23.406516455945653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequential learning methods such as active learning and Bayesian optimization select the most informative data to learn about a task. In many medical or engineering applications, the data selection is constrained by a priori unknown safety conditions. A promissing line of safe learning methods utilize Gaussian processes (GPs) to model the safety probability and perform data selection in areas with high safety confidence. However, accurate safety modeling requires prior knowledge or consumes data. In addition, the safety confidence centers around the given observations which leads to local exploration. As transferable source knowledge is often available in safety critical experiments, we propose to consider transfer safe sequential learning to accelerate the learning of safety. We further consider a pre-computation of source components to reduce the additional computational load that is introduced by incorporating source data. In this paper, we theoretically analyze the maximum explorable safe regions of conventional safe learning methods. Furthermore, we empirically demonstrate that our approach 1) learns a task with lower data consumption, 2) globally explores multiple disjoint safe regions under guidance of the source knowledge, and 3) operates with computation comparable to conventional safe learning methods.
Abstract（参考訳）: アクティブラーニングやベイズ最適化のような逐次学習法は、タスクについて学ぶために最も有益なデータを選択する。多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。安全学習手法の許容ラインは、ガウス過程(GP)を用いて安全性確率をモデル化し、安全性の高い領域でデータ選択を行う。しかし、正確な安全モデリングには事前の知識が必要か、あるいはデータを消費する。さらに、安全信頼性は、局所的な探索につながる与えられた観測を中心にしている。トランスファー可能なソース知識は安全クリティカルな実験でしばしば利用できるため,安全性の学習を促進するために,トランスファーセーフシーケンシャルラーニングを検討すべきである。さらに、ソースデータを組み込んだ計算負荷を低減するために、ソースコンポーネントの事前計算も検討する。本稿では,従来の安全学習法の最大探索可能安全領域を理論的に解析する。さらに我々は、我々のアプローチが 1)データ消費の少ないタスクを学習する。 2) 情報源知識の指導のもと, グローバルに複数の異分野の安全領域を探索する。 3) 計算処理は従来の安全な学習手法に匹敵する。

関連論文リスト

Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文参考訳（メタデータ） (2025-06-06T18:05:45Z)
Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文参考訳（メタデータ） (2024-05-05T17:27:22Z)
Probabilistic Counterexample Guidance for Safer Reinforcement Learning (Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文参考訳（メタデータ） (2023-07-10T22:28:33Z)
Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文参考訳（メタデータ） (2023-04-21T16:19:54Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文参考訳（メタデータ） (2022-08-23T05:02:09Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Active Learning with Safety Constraints [25.258564629480063]
対話型環境における安全な判断を学習することの複雑さについて検討する。適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
論文参考訳（メタデータ） (2022-06-22T15:45:38Z)
SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文参考訳（メタデータ） (2022-02-10T05:43:41Z)
Safe Policy Optimization with Local Generalized Linear Function Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T00:47:50Z)
Data Generation Method for Learning a Low-dimensional Safe Region in Safe Reinforcement Learning [9.903083270841638]
安全強化学習は、学習プロセス中にシステムや環境が損傷を受けないようにしながら、制御ポリシーを学習することを目的としている。高非線形・高次元力学系に安全な強化学習を実装するためには、データ駆動特徴抽出法を用いて低次元の安全な領域を見つけることが考えられる。学習した安全性推定の信頼性はデータに依存しているため、この研究において、異なるトレーニングデータが安全な強化学習アプローチにどのように影響するかを調査する。
論文参考訳（メタデータ） (2021-09-10T19:22:43Z)
Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文参考訳（メタデータ） (2020-10-27T20:53:20Z)
Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文参考訳（メタデータ） (2020-07-07T15:50:50Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。