論文の概要: Algorithms for Deciding the Safety of States in Fully Observable Non-deterministic Problems: Technical Report
- arxiv url: http://arxiv.org/abs/2603.15282v1
- Date: Mon, 16 Mar 2026 13:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.394875
- Title: Algorithms for Deciding the Safety of States in Fully Observable Non-deterministic Problems: Technical Report
- Title(参考訳): 完全観測可能な非決定論的問題における国家安全決定アルゴリズム:技術報告
- Authors: Johannes Schmalz, Chaahat Jain,
- Abstract要約: 我々は、初期状態および行動アウトカム非決定性の下で学習された行動ポリシーの安全性をテストするパイプラインを導入する。
パイプラインのコアは、状態が安全な(状態から安全なポリシーが存在する)かどうかを判断し、安全な状態から安全でない状態へ遷移する状態-アクションペアである障害を見つけるという問題である。
両方の長所を組み合わせた新しいポリシイテレーションアルゴリズムiPIは、最悪のケースを保証しながら、TarjanSafeのベストケースランタイムと一致します。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned action policies are increasingly popular in sequential decision-making, but suffer from a lack of safety guarantees. Recent work introduced a pipeline for testing the safety of such policies under initial-state and action-outcome non-determinism. At the pipeline's core, is the problem of deciding whether a state is safe (a safe policy exists from the state) and finding faults, which are state-action pairs that transition from a safe state to an unsafe one. Their most effective algorithm for deciding safety, TarjanSafe, is effective on their benchmarks, but we show that it has exponential worst-case runtime with respect to the state space. A linear-time alternative exists, but it is slower in practice. We close this gap with a new policy-iteration algorithm iPI, that combines the best of both: it matches TarjanSafe's best-case runtime while guaranteeing a polynomial worst-case. Experiments confirm our theory and show that in problems amenable to TarjanSafe iPI has similar performance, whereas in ill-suited problems iPI scales exponentially better.
- Abstract(参考訳): 学習されたアクションポリシーは、シーケンシャルな意思決定でますます人気があるが、安全保証の欠如に悩まされている。
最近の研究は、初期状態およびアクションアウトカム非決定主義の下で、このようなポリシーの安全性をテストするパイプラインを導入した。
パイプラインのコアは、状態が安全な(状態から安全なポリシーが存在する)かどうかを判断し、安全な状態から安全でない状態へ遷移する状態-アクションペアである障害を見つけるという問題である。
安全性を決定するための最も効果的なアルゴリズムであるTarjanSafeは、ベンチマークで有効であるが、状態空間に関して、指数関数的に最悪の実行環境があることが示される。
線形時間的な代替手段は存在するが、実際は遅い。
これはTarjanSafeのベストケースランタイムと一致し、多項式最悪のケースを保証します。
実験により本理論が検証され,TarjanSafe iPIに許容される問題と類似した性能を示す一方で,不適合な問題では指数関数的スケールが向上することが示された。
関連論文リスト
- Conformal Policy Control [50.46542384484142]
我々は、安全な参照ポリシーを、最適化されているが未試験のポリシーの確率的規制として使う方法を示す。
保守的な最適化方法とは異なり、ユーザーが正しいモデルクラスを識別したとは仮定しない。
自然言語質問応答から生体分子工学まで,本研究の応用実験は,デプロイ開始当初から安全な探索が可能であることを示唆している。
論文 参考訳(メタデータ) (2026-03-02T18:54:36Z) - UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases [57.69882799751655]
さまざまなソースを持つハードプロンプトから構築された安全アライメントデータセットであるUnsafeChainをリリースする。
我々は3つの大きな推論モデル(LRM)を微調整し、それらを最近のSafeChainとSTAR-1と比較する。
UnsafeChainは、1Kサブセットのマッチングやベースラインのパフォーマンスを越えながら、従来よりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-07-29T10:08:52Z) - Safety in safe Bayesian optimization and its ramifications for control [6.450289319821615]
制御工学では、事前に設計されたコントローラのパラメータは、しばしば植物とのフィードバックでオンラインで調整される。
特に、この重要な問題、特にベイズ最適化(BO)のために機械学習手法が展開されている。
まず、SafeOpt型アルゴリズムは定量的不確実性境界に依存し、ほとんどの実装は理論上はサポートされていない。
リプシッツのみの安全ベイズ最適化(LoSBO)を提案する。
論文 参考訳(メタデータ) (2025-01-23T14:24:11Z) - Test Where Decisions Matter: Importance-driven Testing for Deep Reinforcement Learning [7.0247398611254175]
多くのDeep Reinforcement Learning (RL) 問題では、トレーニングされたポリシーにおける決定は、ポリシーの期待される安全性と性能において重要である。
状態空間全体にわたる状態重要度ランキングを厳格に計算する新しいモデルベース手法を提案する。
次に、最もランクの高い州にテストの取り組みを集中させます。
論文 参考訳(メタデータ) (2024-11-12T10:26:44Z) - Safe Time-Varying Optimization based on Gaussian Processes with Spatio-Temporal Kernel [4.586346034304039]
TVSafeOptは、未知の報酬と安全機能を持つ時間変化最適化問題のアルゴリズムである。
TVSafeOptは、明示的な変更検出を必要とせずに、時間変化のある安全な領域を安全に追跡することができる。
その結果,TVSafeOptは,安全と最適性の両方に関して,合成データ上でSafeOptと良好に比較できることがわかった。
論文 参考訳(メタデータ) (2024-09-26T16:09:19Z) - Long-term Safe Reinforcement Learning with Binary Feedback [5.684409853507594]
LoBiSaRL (Long-term Binary Safe RL) はマルコフ決定過程に対する安全なRLアルゴリズムである。
LoBiSaRLは長期の安全制約を高い確率で保証する。
理論的には,LoBiSaRLは長期の安全制約を高い確率で保証している。
論文 参考訳(メタデータ) (2024-01-08T10:07:31Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。