論文の概要: Shield Synthesis for LTL Modulo Theories
- arxiv url: http://arxiv.org/abs/2406.04184v1
- Date: Thu, 6 Jun 2024 15:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:10:28.867741
- Title: Shield Synthesis for LTL Modulo Theories
- Title(参考訳): LTLモデュロ理論のためのシールド合成
- Authors: Andoni Rodriguez, Guy Amir, Davide Corsi, Cesar Sanchez, Guy Katz,
- Abstract要約: 我々は、複雑な安全仕様に従ってシールドを生成するための新しいアプローチを開発する。
我々の知る限りでは、このような表現力のためにシールドを合成するための最初のアプローチである。
- 参考スコア(独自算出の注目度): 2.034732821736745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Machine Learning (ML) models have achieved remarkable success in various domains. However, these models also tend to demonstrate unsafe behaviors, precluding their deployment in safety-critical systems. To cope with this issue, ample research focuses on developing methods that guarantee the safe behaviour of a given ML model. A prominent example is shielding which incorporates an external component (a "shield") that blocks unwanted behavior. Despite significant progress, shielding suffers from a main setback: it is currently geared towards properties encoded solely in propositional logics (e.g., LTL) and is unsuitable for richer logics. This, in turn, limits the widespread applicability of shielding in many real-world systems. In this work, we address this gap, and extend shielding to LTL modulo theories, by building upon recent advances in reactive synthesis modulo theories. This allowed us to develop a novel approach for generating shields conforming to complex safety specifications in these more expressive, logics. We evaluated our shields and demonstrate their ability to handle rich data with temporal dynamics. To the best of our knowledge, this is the first approach for synthesizing shields for such expressivity.
- Abstract(参考訳): 近年,機械学習(ML)モデルは様々な分野で大きな成功を収めている。
しかしながら、これらのモデルはまた、安全クリティカルなシステムへの展開を前にして、安全でない振る舞いを示す傾向がある。
この問題に対処するために、豊富な研究は、与えられたMLモデルの安全な振る舞いを保証する方法の開発に重点を置いている。
注目すべき例として、不要な振る舞いをブロックする外部コンポーネント("シールド")を組み込んだシールドがある。
シールドは現在、命題論理(例:LTL)にのみ符号化されたプロパティを対象としており、よりリッチなロジックには適していない。
これにより、多くの現実世界システムにおけるシールドの適用範囲が制限される。
本研究では, このギャップに対処し, 反応性合成モジュロ理論の最近の進歩を基盤として, LTLモジュロ理論への遮蔽を拡大する。
これにより、より表現力に富んだ論理において、複雑な安全仕様に準拠したシールドを生成するための新しいアプローチを開発することができた。
我々はシールドを評価し、時間的ダイナミクスでリッチなデータを処理できることを実証した。
我々の知る限りでは、このような表現力のためにシールドを合成するための最初のアプローチである。
関連論文リスト
- Synthesizing Efficient and Permissive Programmatic Runtime Shields for Neural Policies [7.831197018945118]
ニューラルポリシーのための軽量でパーミッシブなプログラム型ランタイムシールドを合成する新しいフレームワークを提案する。
Aegisは、スケッチベースのプログラム合成問題としてランタイムシールドの探索を定式化することでこれを達成している。
現在の最先端と比較すると、イージスのシールドは時間オーバーヘッドの2.1$times$とメモリ使用量の4.4$times$である。
論文 参考訳(メタデータ) (2024-10-08T02:44:55Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Shielding under Delayed Observation [59.86192283565134]
シールドは安全な実行を保証するコンストラクション・バイ・コンストラクション・インストラクタである。
シールドは、将来の干渉が最小化される可能性が最も高い方法で、安全な修正行動を選択するべきである。
現実的な運転シミュレータにおけるシールドの最初の統合について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:06:10Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - Dynamic Shielding for Reinforcement Learning in Black-Box Environments [2.696933675395521]
サイバー物理システムにおける強化学習の利用は,学習中の安全性保証の欠如により困難である。
本稿では,事前のシステム知識を必要とせず,学習時の望ましくない行動を減らすことを目的とする。
本稿では,自動学習を用いた遮蔽と呼ばれるモデルベース安全なRL手法の拡張として,動的遮蔽を提案する。
論文 参考訳(メタデータ) (2022-07-27T10:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。