論文の概要: A Domain-Agnostic Scalable AI Safety Ensuring Framework
- arxiv url: http://arxiv.org/abs/2504.20924v4
- Date: Fri, 23 May 2025 13:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.969094
- Title: A Domain-Agnostic Scalable AI Safety Ensuring Framework
- Title(参考訳): ドメインに依存しないスケーラブルなAI安全性保証フレームワーク
- Authors: Beomjun Kim, Kangyeon Kim, Sunwoo Kim, Heejin Ahn,
- Abstract要約: 本稿では,AIシステムが特定の確率でユーザ定義の安全制約を満たすことを保証する新しいフレームワークを提案する。
当社のアプローチでは,任意のAIモデルと最適化問題を組み合わせることで,パフォーマンスを維持しながら,アウトプットが安全要件を満たすことを保証する。
本手法は,穏やかな条件下での確率論的安全性を保証するとともに,AIの安全性における最初のスケーリング法則を確立する。
- 参考スコア(独自算出の注目度): 8.086635708001166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring the safety of AI systems has emerged as a critical priority as these systems are increasingly deployed in real-world applications. We propose a novel domain-agnostic framework that guarantees AI systems satisfy user-defined safety constraints with specified probabilities. Our approach combines any AI model with an optimization problem that ensures outputs meet safety requirements while maintaining performance. The key challenge is handling uncertain constraints -- those whose satisfaction cannot be deterministically evaluated~(e.g., whether a chatbot response is ``harmful''). We address this through three innovations: (1) a safety classification model that assesses constraint satisfaction probability, (2) internal test data to evaluate this classifier's reliability, and (3) conservative testing to prevent overfitting when this data is used in training. We prove our method guarantees probabilistic safety under mild conditions and establish the first scaling law in AI safety -- showing that the safety-performance trade-off improves predictably with more internal test data. Experiments across production planning, reinforcement learning, and language generation demonstrate our framework achieves up to 140 times better safety than existing methods at the same performance levels. This work enables AI systems to achieve both rigorous safety guarantees and high performance across diverse domains.
- Abstract(参考訳): これらのシステムが現実のアプリケーションにますますデプロイされるにつれて、AIシステムの安全性の確保が重要な優先事項として浮上している。
本稿では,AIシステムが特定の確率でユーザ定義の安全制約を満たすことを保証する新しいドメインに依存しないフレームワークを提案する。
当社のアプローチでは,任意のAIモデルと最適化問題を組み合わせることで,パフォーマンスを維持しながら,アウトプットが安全要件を満たすことを保証する。
まず、(1)制約満足度確率を評価する安全分類モデル、(2)この分類器の信頼性を評価するための内部テストデータ、(3)このデータがトレーニングに使用されるときの過度な適合を防止するための保守的テストなどである。我々は、この手法が穏やかな条件下で確率的安全性を保証し、AIの安全性における最初のスケーリング法を確立し、安全性とパフォーマンスのトレードオフがより内部テストデータで予測可能な改善を示す。
生産計画、強化学習、言語生成に関する実験では、我々のフレームワークは、同じパフォーマンスレベルで既存のメソッドよりも最大140倍の安全性を達成しています。
この作業により、AIシステムは、厳格な安全保証と、さまざまなドメインにわたるハイパフォーマンスの両方を達成することができる。
関連論文リスト
- AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。
AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。
我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-24T02:11:52Z) - Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - Scaling #DNN-Verification Tools with Efficient Bound Propagation and
Parallel Computing [57.49021927832259]
ディープニューラルネットワーク(DNN)は多くのシナリオで異常な結果を示した強力なツールです。
しかし、それらの複雑な設計と透明性の欠如は、現実世界のアプリケーションに適用する際の安全性上の懸念を提起する。
DNNの形式的検証(FV)は、安全面の証明可能な保証を提供する貴重なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-10T13:51:25Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Neural Bridge Sampling for Evaluating Safety-Critical Autonomous Systems [34.945482759378734]
シミュレーションの安全性評価には確率論的アプローチを用いており、危険事象の確率を計算することに関心がある。
探索, 利用, 最適化技術を組み合わせて, 故障モードを見つけ, 発生率を推定する新しいレアイベントシミュレーション手法を開発した。
論文 参考訳(メタデータ) (2020-08-24T17:46:27Z) - Efficient statistical validation with edge cases to evaluate Highly
Automated Vehicles [6.198523595657983]
自動運転車の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。
既存の標準は、検証が要求をカバーするテストケースのセットだけを必要とする決定論的プロセスに焦点を当てています。
本稿では, 自動生成テストケースを最悪のシナリオに偏り付け, システムの挙動の統計的特性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-04T04:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。