Fugu-MT 論文翻訳(概要): Towards an Argument Pattern for the Use of Safety Performance Indicators

論文の概要: Towards an Argument Pattern for the Use of Safety Performance Indicators

arxiv url: http://arxiv.org/abs/2410.00578v1
Date: Tue, 1 Oct 2024 10:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 04:47:16.907109
Title: Towards an Argument Pattern for the Use of Safety Performance Indicators
Title（参考訳）: 安全性能指標の活用に向けて
Authors: Daniel Ratiu, Tihomir Rohlinger, Torben Stolte, Stefan Wagner,
Abstract要約: 自動運転製品の安全基準であるUL 4600は、安全性能指標(SPI)の使用を義務付けている。標準および共用文献で利用可能な具体的なSPIの例は多数あるが、安全性を達成するための貢献の根拠は暗黙的に残されていることが多い。我々はSPIを明示的に用いて暗黙の議論を行い、これに基づいて選択したSPIの信頼性を損なう可能性のある状況を分析する。
参考スコア（独自算出の注目度）: 2.5607385045359914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: UL 4600, the safety standard for autonomous products, mandates the use of Safety Performance Indicators (SPIs) to continuously ensure the validity of safety cases by monitoring and taking action when violations are identified. Despite numerous examples of concrete SPIs available in the standard and companion literature, their contribution rationale for achieving safety is often left implicit. In this paper, we present our initial work towards an argument pattern for the use of SPIs to ensure validity of safety cases throughout the entire lifecycle of the system. Our aim is to make the implicit argument behind using SPIs explicit, and based on this, to analyze the situations that can undermine confidence in the chosen set of SPIs. To maintain the confidence in SPIs' effectiveness, we propose an approach to continuously monitor their expected performance by using meta-SPIs.
Abstract（参考訳）: 自動運転製品の安全基準であるUL 4600は、安全性能指標(SPI)の使用を義務付け、違反が特定された場合の監視と対応によって安全事例の有効性を継続的に確保する。標準および共用文献で利用可能な具体的なSPIの例は多数あるが、安全性を達成するための貢献の根拠は暗黙的に残されていることが多い。本稿では,システムライフサイクル全体を通して,安全ケースの妥当性を確保するため,SPIの使用に関する議論パターンについて述べる。本研究の目的は,選択したSPIの集合に対する信頼を損なう可能性のある状況を分析するために,SPIを用いた暗黙の議論を明確化することである。本稿では,SPIの有効性の信頼性を維持するため,メタSPIを用いて期待される性能を継続的に監視する手法を提案する。

関連論文リスト

Self-Aware Safety Augmentation: Leveraging Internal Semantic Understanding to Enhance Safety in Vision-Language Models [21.961325147038867]
大規模視覚言語モデル(LVLM)は、言語のみのバックボーンと比較して有害な入力に対して脆弱である。我々はこれらの能力を、言語表現の安全性認識、意味理解、アライメントとして定義する。これらの知見に触発され,従来の安全指向層に情報的意味表現を投影する技術である textbfSelf-Aware Safety Augmentation (SASA) を提案する。
論文参考訳（メタデータ） (2025-07-29T09:48:57Z)
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。 LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文参考訳（メタデータ） (2025-05-22T03:46:03Z)
STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文参考訳（メタデータ） (2025-02-04T15:02:55Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。 AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文参考訳（メタデータ） (2024-10-22T03:38:37Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)
Interpreting Safety Outcomes: Waymo's Performance Evaluation in the Context of a Broader Determination of Safety Readiness [0.0]
本稿では,観測結果と他の推定手法を補完する安全性判定への多角的アプローチの必要性を強調した。 ADSのクラッシュデータと人間由来のベースラインの比較における「クレディビリティ・パラドックス」の提示、インユースモニタリングによる継続的信頼成長の認識、イベントレベルの適切な推論による総合統計分析を補完する必要性、などが議論の焦点となっている。
論文参考訳（メタデータ） (2023-06-23T14:26:40Z)
More for Less: Safe Policy Improvement With Stronger Performance Guarantees [7.507789621505201]
安全な政策改善(SPI)問題は、サンプルデータが生成された行動ポリシーの性能を改善することを目的としている。本稿では,SPI問題に対する新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-05-13T16:22:21Z)
Guiding Safe Exploration with Weakest Preconditions [15.469452301122177]
安全クリティカルな設定のための強化学習では、エージェントはあらゆる時点において安全制約に従うことが望ましい。我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
論文参考訳（メタデータ） (2022-09-28T14:58:41Z)
Safe Policy Improvement Approaches and their Limitations [2.596059386610301]
我々は,各文献からの各種安全政策改善(SPI)アプローチを,状態-作用ペアの不確実性を活用した2つのグループに分類する。彼らの主張が確実に安全であるという主張は成り立たないことを示す。我々はAdv.-Soft-SPIBBアルゴリズムの適応を開発し、それらが確実に安全であることを示す。
論文参考訳（メタデータ） (2022-08-01T10:13:03Z)
Reliability Assessment and Safety Arguments for Machine Learning Components in Assuring Learning-Enabled Autonomous Systems [19.65793237440738]
LES(Learning-Enabled Systems)のための総合保証フレームワークを提案する。次に、ML分類器のための新しいモデルに依存しない信頼性評価モデル(RAM)を提案する。モデル仮定と、我々のRAMが発見したML信頼性を評価するための固有の課題について論じる。
論文参考訳（メタデータ） (2021-11-30T14:39:22Z)
Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文参考訳（メタデータ） (2021-05-31T21:04:21Z)
Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。 i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文参考訳（メタデータ） (2021-05-23T01:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。