論文の概要: SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings
- arxiv url: http://arxiv.org/abs/2502.12562v2
- Date: Wed, 21 May 2025 15:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 18:05:36.05335
- Title: SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings
- Title(参考訳): SEA: 合成埋め込みによるマルチモーダル大言語モデルの低リソース安全アライメント
- Authors: Weikai Lu, Hao Peng, Huiping Zhuang, Cen Chen, Ziqian Zeng,
- Abstract要約: MLLM(Multimodal Large Language Models)は、重大なセキュリティ上の脆弱性を持つ。
テキストアライメントを含む既存の低リソースのセキュリティアライメント手法は、追加のモダリティによって引き起こされるセキュリティリスクに悩まされている。
勾配更新による追加モダリティの埋め込みを最適化するSEA(Synthetic Embedding augmented safety alignment)を提案する。
- 参考スコア(独自算出の注目度): 32.661752596399204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have serious security vulnerabilities.While safety alignment using multimodal datasets consisting of text and data of additional modalities can effectively enhance MLLM's security, it is costly to construct these datasets. Existing low-resource security alignment methods, including textual alignment, have been found to struggle with the security risks posed by additional modalities. To address this, we propose Synthetic Embedding augmented safety Alignment (SEA), which optimizes embeddings of additional modality through gradient updates to expand textual datasets. This enables multimodal safety alignment training even when only textual data is available. Extensive experiments on image, video, and audio-based MLLMs demonstrate that SEA can synthesize a high-quality embedding on a single RTX3090 GPU within 24 seconds. SEA significantly improves the security of MLLMs when faced with threats from additional modalities. To assess the security risks introduced by video and audio, we also introduced a new benchmark called VA-SafetyBench. High attack success rates across multiple MLLMs validate its challenge. Our code and data will be available at https://github.com/ZeroNLP/SEA.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)には深刻なセキュリティ上の脆弱性があり、テキストと追加モダリティのデータからなるマルチモーダルデータセットを使用した安全性アライメントは、MLLMのセキュリティを効果的に強化することができるが、これらのデータセットを構築するにはコストがかかる。
テキストアライメントを含む既存の低リソースのセキュリティアライメント手法は、追加のモダリティによって引き起こされるセキュリティリスクに悩まされている。
そこで本研究では,テキストデータセットの拡張のために,勾配更新による追加モダリティの埋め込みを最適化するSynthetic Embedding augmented safety Alignment (SEA)を提案する。
これにより、テキストデータのみが利用可能であっても、マルチモーダルなアライメントトレーニングが可能になる。
画像、ビデオ、オーディオベースのMLLMに関する大規模な実験は、SEAが単一のRTX3090 GPUに24秒で高品質な埋め込みを合成できることを実証している。
SEAは、追加のモダリティによる脅威に直面した際のMLLMのセキュリティを著しく改善する。
ビデオとオーディオがもたらすセキュリティリスクを評価するため,VA-SafetyBenchという新しいベンチマークも導入した。
複数のMLLMに対する高い攻撃成功率は、その課題を検証する。
コードとデータはhttps://github.com/ZeroNLP/SEA.comで公開されます。
関連論文リスト
- DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models [37.104276926258095]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの統合により、ユニークな安全性上の課題を提起する。
textbfDREAM(textittextbfDisentangling textbfRisks to textbfEnhance Safety textbfAlignment in textbfMLLMs)を導入する。
論文 参考訳(メタデータ) (2025-04-25T03:54:24Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。