論文の概要: A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications
- arxiv url: http://arxiv.org/abs/2502.16361v1
- Date: Sat, 22 Feb 2025 21:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:32.286912
- Title: A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications
- Title(参考訳): ビジョンランゲージモデル安全性評価のためのフレームワーク: 公共分野向けAIにおける信頼の構築
- Authors: Maisha Binte Rashid, Pablo Rivas,
- Abstract要約: 本稿では,視覚言語モデル(VLM)における敵対的リスクを定量化する新しい枠組みを提案する。
我々は,ガウス,ソルト・アンド・ペッパー,均一雑音下でのモデル性能を解析し,誤分類しきい値を特定し,脆弱な領域を目立たせる複合ノイズパッチやサリエンシパターンを導出する。
本稿では,ランダムノイズと敵攻撃の影響を組み合わせた新しい脆弱性スコアを提案し,モデルロバスト性を評価するための総合的指標を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in public sector missions, necessitating robust evaluation of their safety and vulnerability to adversarial attacks. This paper introduces a novel framework to quantify adversarial risks in VLMs. We analyze model performance under Gaussian, salt-and-pepper, and uniform noise, identifying misclassification thresholds and deriving composite noise patches and saliency patterns that highlight vulnerable regions. These patterns are compared against the Fast Gradient Sign Method (FGSM) to assess their adversarial effectiveness. We propose a new Vulnerability Score that combines the impact of random noise and adversarial attacks, providing a comprehensive metric for evaluating model robustness.
- Abstract(参考訳): VLM(Vision-Language Models)は、公共セクターのミッションにおいて、敵の攻撃に対する安全性と脆弱性の堅牢な評価を必要とするようになってきている。
本稿では,VLMにおける敵のリスクを定量化する新しい枠組みを提案する。
我々は,ガウス,ソルト・アンド・ペッパー,均一雑音下でのモデル性能を解析し,誤分類しきい値を特定し,脆弱な領域を目立たせる複合ノイズパッチやサリエンシパターンを導出する。
これらのパターンをFGSM(Fast Gradient Sign Method)と比較し,その逆効果を評価する。
本稿では,ランダムノイズと敵攻撃の影響を組み合わせた新しい脆弱性スコアを提案し,モデルロバスト性を評価するための総合的指標を提供する。
関連論文リスト
- Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。
我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文 参考訳(メタデータ) (2024-11-20T10:41:23Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。