論文の概要: DeepSight: An All-in-One LM Safety Toolkit
- arxiv url: http://arxiv.org/abs/2602.12092v1
- Date: Thu, 12 Feb 2026 15:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.903691
- Title: DeepSight: An All-in-One LM Safety Toolkit
- Title(参考訳): DeepSight:オールインワンのLM安全ツールキット
- Authors: Bo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu,
- Abstract要約: 我々は,新たな安全性評価・診断統合パラダイムを実践する,オープンソースのプロジェクトであるDeepSightを提案する。
DeepSightは低コストで再現性があり、効率的で、スケーラブルな大規模モデル安全性評価プロジェクトであり、評価ツールキットDeepSafeと診断ツールキットDeepScanで構成されている。
タスクとデータプロトコルを統一することにより、2つのステージ間の接続を構築し、安全評価をブラックボックスからホワイトボックスのインサイトに変換する。
- 参考スコア(独自算出の注目度): 49.27916339801296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.
- Abstract(参考訳): 大規模モデル(LM)の開発が急速に進んでいるため、その安全性も最優先事項である。
現在のLarge Language Models(LLM)とMultimodal Large Language Models(MLLM)の安全性ワークフローでは、評価、診断、アライメントは別々のツールによって処理されることが多い。
具体的には、安全性評価は外部の行動リスクのみを特定できるが、内部の根本原因を特定できない。
一方、安全診断はしばしば具体的なリスクシナリオから逸脱し、説明可能なレベルに留まる。
このようにして、安全アライメントは内部機構の変化に関する専用の説明を欠き、一般的な能力を低下させる可能性がある。
本稿では,これらの課題を体系的に解決するために,新たな安全性評価・診断統合パラダイムを実践する,DeepSightというオープンソースプロジェクトを提案する。
DeepSightは低コストで再現性があり、効率的で、スケーラブルな大規模モデル安全性評価プロジェクトであり、評価ツールキットDeepSafeと診断ツールキットDeepScanで構成されている。
タスクとデータプロトコルを統一することにより、2つのステージ間の接続を構築し、安全評価をブラックボックスからホワイトボックスのインサイトに変換する。
さらにDeepSightは、フロンティアAIリスク評価と共同安全性評価と診断をサポートする最初のオープンソースツールキットである。
関連論文リスト
- AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [29.63418384788804]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。