論文の概要: Towards an Argument Pattern for the Use of Safety Performance Indicators
- arxiv url: http://arxiv.org/abs/2410.00578v1
- Date: Tue, 1 Oct 2024 10:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:47:16.907109
- Title: Towards an Argument Pattern for the Use of Safety Performance Indicators
- Title(参考訳): 安全性能指標の活用に向けて
- Authors: Daniel Ratiu, Tihomir Rohlinger, Torben Stolte, Stefan Wagner,
- Abstract要約: 自動運転製品の安全基準であるUL 4600は、安全性能指標(SPI)の使用を義務付けている。
標準および共用文献で利用可能な具体的なSPIの例は多数あるが、安全性を達成するための貢献の根拠は暗黙的に残されていることが多い。
我々はSPIを明示的に用いて暗黙の議論を行い、これに基づいて選択したSPIの信頼性を損なう可能性のある状況を分析する。
- 参考スコア(独自算出の注目度): 2.5607385045359914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UL 4600, the safety standard for autonomous products, mandates the use of Safety Performance Indicators (SPIs) to continuously ensure the validity of safety cases by monitoring and taking action when violations are identified. Despite numerous examples of concrete SPIs available in the standard and companion literature, their contribution rationale for achieving safety is often left implicit. In this paper, we present our initial work towards an argument pattern for the use of SPIs to ensure validity of safety cases throughout the entire lifecycle of the system. Our aim is to make the implicit argument behind using SPIs explicit, and based on this, to analyze the situations that can undermine confidence in the chosen set of SPIs. To maintain the confidence in SPIs' effectiveness, we propose an approach to continuously monitor their expected performance by using meta-SPIs.
- Abstract(参考訳): 自動運転製品の安全基準であるUL 4600は、安全性能指標(SPI)の使用を義務付け、違反が特定された場合の監視と対応によって安全事例の有効性を継続的に確保する。
標準および共用文献で利用可能な具体的なSPIの例は多数あるが、安全性を達成するための貢献の根拠は暗黙的に残されていることが多い。
本稿では,システムライフサイクル全体を通して,安全ケースの妥当性を確保するため,SPIの使用に関する議論パターンについて述べる。
本研究の目的は,選択したSPIの集合に対する信頼を損なう可能性のある状況を分析するために,SPIを用いた暗黙の議論を明確化することである。
本稿では,SPIの有効性の信頼性を維持するため,メタSPIを用いて期待される性能を継続的に監視する手法を提案する。
関連論文リスト
- STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - More for Less: Safe Policy Improvement With Stronger Performance
Guarantees [7.507789621505201]
安全な政策改善(SPI)問題は、サンプルデータが生成された行動ポリシーの性能を改善することを目的としている。
本稿では,SPI問題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-13T16:22:21Z) - Guiding Safe Exploration with Weakest Preconditions [15.469452301122177]
安全クリティカルな設定のための強化学習では、エージェントはあらゆる時点において安全制約に従うことが望ましい。
我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-28T14:58:41Z) - Safe Policy Improvement Approaches and their Limitations [2.596059386610301]
我々は,各文献からの各種安全政策改善(SPI)アプローチを,状態-作用ペアの不確実性を活用した2つのグループに分類する。
彼らの主張が確実に安全であるという主張は成り立たないことを示す。
我々はAdv.-Soft-SPIBBアルゴリズムの適応を開発し、それらが確実に安全であることを示す。
論文 参考訳(メタデータ) (2022-08-01T10:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。