論文の概要: SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.06142v1
- Date: Fri, 08 Aug 2025 09:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.161655
- Title: SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models
- Title(参考訳): SDEval:マルチモーダル大言語モデルの安全性動的評価
- Authors: Hanqing Wang, Yuan Tian, Mingyu Liu, Zhenhao Zhang, Xiangyang Zhu,
- Abstract要約: 安全ベンチマークの分布と複雑さを制御的に調整するテキストファースト安全性動的評価フレームワークであるtextbfSDEvalを提案する。
SDEvalは主にテキスト、画像、テキストイメージの3つの動的戦略を採用し、オリジナルのベンチマークから新しいサンプルを生成する。
安全ベンチマーク、MLLMGuard、VLSBench、能力ベンチマーク、MMBench、MMVetによる実験では、SDEvalは安全性評価に大きく影響を与え、データの汚染を軽減し、MLLMの安全性制限を公開する。
- 参考スコア(独自算出の注目度): 25.624773226930884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving landscape of Multimodal Large Language Models (MLLMs), the safety concerns of their outputs have earned significant attention. Although numerous datasets have been proposed, they may become outdated with MLLM advancements and are susceptible to data contamination issues. To address these problems, we propose \textbf{SDEval}, the \textit{first} safety dynamic evaluation framework to controllably adjust the distribution and complexity of safety benchmarks. Specifically, SDEval mainly adopts three dynamic strategies: text, image, and text-image dynamics to generate new samples from original benchmarks. We first explore the individual effects of text and image dynamics on model safety. Then, we find that injecting text dynamics into images can further impact safety, and conversely, injecting image dynamics into text also leads to safety risks. SDEval is general enough to be applied to various existing safety and even capability benchmarks. Experiments across safety benchmarks, MLLMGuard and VLSBench, and capability benchmarks, MMBench and MMVet, show that SDEval significantly influences safety evaluation, mitigates data contamination, and exposes safety limitations of MLLMs. Code is available at https://github.com/hq-King/SDEval
- Abstract(参考訳): MLLM(Multimodal Large Language Models)が急速に発展する中で、そのアウトプットの安全性に関する懸念が注目されている。
多くのデータセットが提案されているが、MLLMの進歩により時代遅れになり、データの汚染問題に陥る可能性がある。
これらの問題に対処するために,安全ベンチマークの分布と複雑さを制御的に調整する,安全性動的評価フレームワークである \textbf{SDEval} を提案する。
具体的には、SDEvalは主にテキスト、画像、テキストイメージの3つの動的戦略を採用して、オリジナルのベンチマークから新しいサンプルを生成する。
まず,テキストと画像のダイナミクスがモデル安全性に与える影響について検討する。
そして、画像にテキストダイナミクスを注入すると、さらに安全性に影響を及ぼし、逆に画像ダイナミクスをテキストに注入することで安全性のリスクも生じる。
SDEvalは、様々な既存の安全性および機能ベンチマークに適用できるほど一般的なものである。
安全ベンチマーク、MLLMGuard、VLSBench、能力ベンチマーク、MMBench、MMVetによる実験では、SDEvalは安全性評価に大きく影響を与え、データの汚染を軽減し、MLLMの安全性制限を公開する。
コードはhttps://github.com/hq-King/SDEvalで入手できる。
関連論文リスト
- HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings [32.661752596399204]
MLLM(Multimodal Large Language Models)は、重大なセキュリティ上の脆弱性を持つ。
テキストアライメントを含む既存の低リソースのセキュリティアライメント手法は、追加のモダリティによって引き起こされるセキュリティリスクに悩まされている。
勾配更新による追加モダリティの埋め込みを最適化するSEA(Synthetic Embedding augmented safety alignment)を提案する。
論文 参考訳(メタデータ) (2025-02-18T05:57:35Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。