論文の概要: Learning Probabilistic Temporal Safety Properties from Examples in
Relational Domains
- arxiv url: http://arxiv.org/abs/2211.03461v1
- Date: Mon, 7 Nov 2022 11:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:14:03.745806
- Title: Learning Probabilistic Temporal Safety Properties from Examples in
Relational Domains
- Title(参考訳): 関係領域を用いた確率的時間安全特性の学習
- Authors: Gavin Rens, Wen-Chi Yang, Jean-Fran\c{c}ois Raskin, Luc De Raedt
- Abstract要約: 本稿では,確率計算ツリー論理(pCTL)の断片を,安全あるいは安全でないとラベル付けされた状態の集合から学習するためのフレームワークを提案する。
関係学習の原理を適用し,すべての安全状態に満たされるpCTL式を誘導する。
この公式は、このドメインの安全仕様として使用できるため、システムは将来危険な状況に陥ることを避けることができる。
- 参考スコア(独自算出の注目度): 12.932095325462964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for learning a fragment of probabilistic computation
tree logic (pCTL) formulae from a set of states that are labeled as safe or
unsafe. We work in a relational setting and combine ideas from relational
Markov Decision Processes with pCTL model-checking. More specifically, we
assume that there is an unknown relational pCTL target formula that is
satisfied by only safe states, and has a horizon of maximum $k$ steps and a
threshold probability $\alpha$. The task then consists of learning this unknown
formula from states that are labeled as safe or unsafe by a domain expert. We
apply principles of relational learning to induce a pCTL formula that is
satisfied by all safe states and none of the unsafe ones. This formula can then
be used as a safety specification for this domain, so that the system can avoid
getting into dangerous situations in future. Following relational learning
principles, we introduce a candidate formula generation process, as well as a
method for deciding which candidate formula is a satisfactory specification for
the given labeled states. The cases where the expert knows and does not know
the system policy are treated, however, much of the learning process is the
same for both cases. We evaluate our approach on a synthetic relational domain.
- Abstract(参考訳): 本稿では,確率計算ツリー論理(pCTL)の断片を,安全あるいは安全でないとラベル付けされた状態の集合から学習するためのフレームワークを提案する。
我々はリレーショナル環境で作業し、リレーショナルマルコフ決定プロセスとpCTLモデルチェックのアイデアを組み合わせる。
より具体的には、安全な状態のみによって満たされ、最大$k$ステップとしきい値確率$\alpha$を持つ未知のpCTLターゲット公式が存在すると仮定する。
タスクは、ドメインの専門家によって安全または安全でないとラベル付けされた状態から、この未知の公式を学ぶことで構成される。
我々はリレーショナル・ラーニングの原則を適用し、すべての安全な状態と安全でない状態によって満たされるpctl公式を誘導する。
この公式はこのドメインの安全仕様として使用できるため、システムは将来危険な状況に陥ることを避けることができる。
関係学習の原則に従って、候補式生成プロセスを導入し、与えられたラベル付き状態に対してどの候補式が満足のいく仕様であるかを決定する方法を紹介する。
専門家がシステムポリシーを知っており、知らない場合については、どちらの場合も学習プロセスの多くは同じである。
合成関係領域に対する我々のアプローチを評価する。
関連論文リスト
- What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Safely Learning Dynamical Systems [13.598953823625472]
未知の力学系を学ぶ上での根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は、軌道の初期化の場所を逐次決定することで、力学系を安全に学習することの意味の数学的定義を定式化する。
トラジェクトリを安全に収集し、初期不確実性集合と整合した非線形力学のモデルに適合させる方法を示す。
論文 参考訳(メタデータ) (2023-05-20T21:35:29Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Benefits of Monotonicity in Safe Exploration with Gaussian Processes [50.71125084216603]
動作の集合上で未知の関数を逐次最大化する問題を考察する。
M-SafeUCBは、安全性、適切に定義された後悔の念、安全境界全体の発見という理論的な保証を享受していることを示す。
論文 参考訳(メタデータ) (2022-11-03T02:52:30Z) - Policy Gradients for Probabilistic Constrained Reinforcement Learning [13.441235221641717]
本稿では、強化学習(RL)における安全な政策学習の問題について考察する。
我々は,システムの状態を高い確率で安全に維持する政策を設計することを目指している。
論文 参考訳(メタデータ) (2022-10-02T18:16:33Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。