論文の概要: BlueGlass: A Framework for Composite AI Safety
- arxiv url: http://arxiv.org/abs/2507.10106v1
- Date: Mon, 14 Jul 2025 09:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.657953
- Title: BlueGlass: A Framework for Composite AI Safety
- Title(参考訳): BlueGlass: 複合AI安全性のためのフレームワーク
- Authors: Harshal Nandigramwar, Syed Qutub, Kay-Ulrich Scholl,
- Abstract要約: 本稿では,統合されたインフラストラクチャを提供することで,AIの安全性を促進するためのフレームワークであるBlueGlassを紹介する。
本フレームワークの有用性を実証するために,視覚言語評価における安全性指向の3つの分析法を提案する。
より広い範囲で、この研究は、より堅牢で信頼性の高いAIシステムを構築するためのインフラストラクチャと発見に貢献している。
- 参考スコア(独自算出の注目度): 0.2999888908665658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become increasingly capable and ubiquitous, ensuring the safety of these systems is critical. However, existing safety tools often target different aspects of model safety and cannot provide full assurance in isolation, highlighting a need for integrated and composite methodologies. This paper introduces BlueGlass, a framework designed to facilitate composite AI safety workflows by providing a unified infrastructure enabling the integration and composition of diverse safety tools that operate across model internals and outputs. Furthermore, to demonstrate the utility of this framework, we present three safety-oriented analyses on vision-language models for the task of object detection: (1) distributional evaluation, revealing performance trade-offs and potential failure modes across distributions; (2) probe-based analysis of layer dynamics highlighting shared hierarchical learning via phase transition; and (3) sparse autoencoders identifying interpretable concepts. More broadly, this work contributes foundational infrastructure and findings for building more robust and reliable AI systems.
- Abstract(参考訳): AIシステムがますます有能でユビキタスになるにつれて、これらのシステムの安全性を確保することが重要である。
しかし、既存の安全ツールはモデル安全性の異なる側面を目標としており、統合的および複合的方法論の必要性を強調しながら、独立性を完全に保証することはできない。
本稿では、モデル内部と出力をまたいで動作する多様な安全ツールの統合と構成を可能にする統一されたインフラを提供することにより、複合AI安全ワークフローを促進するために設計されたフレームワークであるBlueGlassを紹介する。
さらに,本フレームワークの実用性を示すために,(1)分布評価,性能トレードオフ,潜在的な障害モード,(2)相転移による共有階層的学習を強調するレイヤダイナミクスのプローブベース解析,(3)解釈可能な概念を識別するスパースオートエンコーダの3つの安全指向分析を行った。
より広範に、この研究は、より堅牢で信頼性の高いAIシステムを構築するための基盤となるインフラストラクチャと発見に貢献している。
関連論文リスト
- Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
提案する確率的安全性は,大規模展開の残留リスクが予め定義された閾値以下であることを保証することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - UniSTPA: A Safety Analysis Framework for End-to-End Autonomous Driving [10.063740202765343]
我々はUnified System Theoretic Process Analysis (UniSTPA)フレームワークを提案する。
UniSTPAはコンポーネントレベルだけでなく、モデルの内部レイヤ内でもハザード分析を行います。
提案手法は,エンド・ツー・エンドの自動運転システムの安全開発と展開のための理論的および実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-21T01:23:31Z) - AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。
AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。
我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-24T02:11:52Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Co-designing heterogeneous models: a distributed systems approach [0.40964539027092917]
本稿では3つの要素に基づく異種システムに適したモデリング手法を提案する。
モデルとは何かという推論主義的な解釈、分散システムのメタファ、そして協調設計サイクルは、モデルの実践的な設計と構築を記述している。
本手法の適合性について,3つの異なるセキュリティ指向モデルを用いて検討する。
論文 参考訳(メタデータ) (2024-07-10T13:35:38Z) - Leveraging Traceability to Integrate Safety Analysis Artifacts into the
Software Development Process [51.42800587382228]
安全保証ケース(SAC)は、システムの進化中に維持することが困難である。
本稿では,ソフトウェアトレーサビリティを活用して,関連するシステムアーチファクトを安全解析モデルに接続する手法を提案する。
安全ステークホルダーがシステム変更が安全性に与える影響を分析するのに役立つように、システム変更の合理性を設計する。
論文 参考訳(メタデータ) (2023-07-14T16:03:27Z) - A Model Based Framework for Testing Safety and Security in Operational
Technology Environments [0.46040036610482665]
本稿では,テスト中のシステムの安全性とセキュリティの挙動を分析するための有望な手法として,モデルに基づくテスト手法を提案する。
基盤となるフレームワークの構造は、運用技術環境のテストにおいて重要な要素に従って、4つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-22T05:37:09Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Synergistic Redundancy: Towards Verifiable Safety for Autonomous
Vehicles [10.277825331268179]
我々は、自律走行車(AV)のような複雑なサイバー物理システムのための安全アーキテクチャとして、シナジスティック冗長性(SR)を提案する。
SRは、システムのミッションと安全タスクを分離することで、特定の障害に対する検証可能な安全保証を提供する。
ミッション層との密接な調整により、システム内の安全クリティカルな障害を容易かつ早期に検出することができる。
論文 参考訳(メタデータ) (2022-09-04T23:52:03Z) - An Empirical Analysis of the Use of Real-Time Reachability for the
Safety Assurance of Autonomous Vehicles [7.1169864450668845]
本稿では,1/10スケールのオープンソース自動運転車プラットフォームの安全性を確保するために,シンプルなアーキテクチャの実装にリアルタイムリーチビリティアルゴリズムを提案する。
提案手法では,システムの将来状態に対するコントローラの判断の影響に着目して,基盤となるコントローラを解析する必要性を抽象化する。
論文 参考訳(メタデータ) (2022-05-03T11:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。