Fugu-MT 論文翻訳(概要): A causal model of safety assurance for machine learning

論文の概要: A causal model of safety assurance for machine learning

arxiv url: http://arxiv.org/abs/2201.05451v1
Date: Fri, 14 Jan 2022 13:54:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-17 18:14:30.673233
Title: A causal model of safety assurance for machine learning
Title（参考訳）: 機械学習における安全性保証の因果モデル
Authors: Simon Burton
Abstract要約: 本稿では,MLベースのアプリケーションに有効な安全保証ケースを構築するための,安全性の因果モデルに基づくフレームワークを提案する。本論文は,安全事例証拠の4つのカテゴリと,これらの証拠を効果的に組み合わせた構造化解析手法を定義する。
参考スコア（独自算出の注目度）: 0.45687771576879593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes a framework based on a causal model of safety upon which effective safety assurance cases for ML-based applications can be built. In doing so, we build upon established principles of safety engineering as well as previous work on structuring assurance arguments for ML. The paper defines four categories of safety case evidence and a structured analysis approach within which these evidences can be effectively combined. Where appropriate, abstract formalisations of these contributions are used to illustrate the causalities they evaluate, their contributions to the safety argument and desirable properties of the evidences. Based on the proposed framework, progress in this area is re-evaluated and a set of future research directions proposed in order for tangible progress in this field to be made.
Abstract（参考訳）: 本稿では,MLベースのアプリケーションに有効な安全保証ケースを構築するための,安全性の因果モデルに基づくフレームワークを提案する。そこで我々は,安全工学の確立した原則と,MLの保証議論を構造化する以前の取り組みを構築した。本論文は,安全事例証拠の4つのカテゴリと,これらの証拠を効果的に組み合わせた構造化解析手法を定義する。これらの貢献の適切で抽象的な形式化は、彼らが評価する因果関係、安全論への貢献、証拠の望ましい性質を説明するために使われる。提案した枠組みに基づいて,本分野の進展を再評価し,本分野の具体的な進展を示すための今後の研究方向性について検討する。

関連論文リスト

SafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Law [91.33824439029533]
我々は,機能と安全性の共進化を示す最先端のマルチモーダル推論モデルであるSafeWork-R1を紹介する。大規模でプログレッシブで安全指向の強化学習をポストトレーニングに取り入れたSafeLadderフレームワークを開発した。さらに,SafeWork-R1-InternVL3-78B,SafeWork-R1-DeepSeek-70B,SafeWork-R1-Qwen2.5VL-7Bを開発した。
論文参考訳（メタデータ） (2025-07-24T16:49:19Z)
Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications [0.0]
本稿では,大規模言語モデル(LLM)におけるアプリケーションレベルの安全性を評価するための実践的フレームワークを提案する。提案したフレームワークが社内パイロットにどのように適用されたのかを説明し、安全テストの取り組みのスケールアップを目指す組織に対して、基準ポイントを提供する。
論文参考訳（メタデータ） (2025-07-13T22:34:20Z)
Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文参考訳（メタデータ） (2025-05-08T13:29:46Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文参考訳（メタデータ） (2025-02-04T15:02:55Z)
Safety case template for frontier AI: A cyber inability argument [2.2628353000034065]
攻撃的サイバー能力のための安全ケーステンプレートを提案する。リスクモデルを特定し、リスクモデルからプロキシタスクを導出し、プロキシタスクの評価設定を定義し、評価結果を結びつける。
論文参考訳（メタデータ） (2024-11-12T18:45:08Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。 AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文参考訳（メタデータ） (2024-10-22T03:38:37Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Reconciling Safety Measurement and Dynamic Assurance [1.6574413179773757]
安全ケースアプローチにおける動的保証を容易にする新しい枠組みを提案する。主な焦点は安全アーキテクチャであり、その基盤となるリスク評価モデルは、安全性の測定から運用リスクへの具体的なリンクを与える。
論文参考訳（メタデータ） (2024-05-30T02:48:00Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Integrating Testing and Operation-related Quantitative Evidences in Assurance Cases to Argue Safety of Data-Driven AI/ML Components [2.064612766965483]
将来的には、AIは人間の身体に害を与える可能性のあるシステムに、ますます浸透していくだろう。このような安全クリティカルなシステムでは、その残留リスクが許容範囲を超えないことが証明されなければならない。本稿では,目標達成のためのより包括的な議論構造を提案する。
論文参考訳（メタデータ） (2022-02-10T20:35:25Z)
Reliability Assessment and Safety Arguments for Machine Learning Components in Assuring Learning-Enabled Autonomous Systems [19.65793237440738]
LES(Learning-Enabled Systems)のための総合保証フレームワークを提案する。次に、ML分類器のための新しいモデルに依存しない信頼性評価モデル(RAM)を提案する。モデル仮定と、我々のRAMが発見したML信頼性を評価するための固有の課題について論じる。
論文参考訳（メタデータ） (2021-11-30T14:39:22Z)
Evaluating the Safety of Deep Reinforcement Learning Models using Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文参考訳（メタデータ） (2020-10-19T11:18:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。