Fugu-MT 論文翻訳(概要): Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

論文の概要: Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

arxiv url: http://arxiv.org/abs/2403.09572v1
Date: Thu, 14 Mar 2024 17:03:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 19:38:09.158314
Title: Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
Title（参考訳）: 目が閉じて安全:画像からテキストへの変換によるマルチモーダルLCMの保護
Authors: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang,
Abstract要約: MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。 ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
参考スコア（独自算出の注目度）: 98.02846901473697
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) have shown impressive reasoning abilities, which, however, are also more vulnerable to jailbreak attacks than their LLM predecessors. Although still capable of detecting unsafe responses, we observe that safety mechanisms of the pre-aligned LLMs in MLLMs can be easily bypassed due to the introduction of image features. To construct robust MLLMs, we propose ECSO(Eyes Closed, Safety On), a novel training-free protecting approach that exploits the inherent safety awareness of MLLMs, and generates safer responses via adaptively transforming unsafe images into texts to activate intrinsic safety mechanism of pre-aligned LLMs in MLLMs. Experiments on five state-of-the-art (SoTA) MLLMs demonstrate that our ECSO enhances model safety significantly (e.g., a 37.6% improvement on the MM-SafetyBench (SD+OCR), and 71.3% on VLSafe for the LLaVA-1.5-7B), while consistently maintaining utility results on common MLLM benchmarks. Furthermore, we show that ECSO can be used as a data engine to generate supervised-finetuning (SFT) data for MLLM alignment without extra human intervention.
Abstract（参考訳）: マルチモーダルな大規模言語モデル (MLLM) は印象的な推論能力を示しており、従来の LLM よりもジェイルブレイク攻撃に弱い。安全でない応答を検出できるが,画像特徴の導入により,MLLMにおける予め整列されたLLMの安全性機構が容易に回避できることが観察された。堅牢なMLLMを構築するために、我々は、MLLMの固有の安全意識を生かし、安全でない画像をテキストに適応的に変換して安全応答を生成し、MLLMにおける予め整列されたLCMの本質的な安全性メカニズムを活性化する新しいトレーニング不要な保護手法ECSO(Eyes Closed, Safety On)を提案する。 The State-of-the-art (SoTA) MLLMの5つの実験により、我々のECSOはモデルの安全性を大幅に向上し(例:MM-SafetyBench (SD+OCR)、LLaVA-1.5-7BのVLSafeは71.3%向上した。さらに,人間の介入なしにMLLMアライメントのための教師付きファインタニング(SFT)データを生成するために,ECSOをデータエンジンとして使用できることを示す。

関連論文リスト

SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。 MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文参考訳（メタデータ） (2025-07-02T09:22:03Z)
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文参考訳（メタデータ） (2025-05-26T08:25:25Z)
Towards Harmless Multimodal Assistants with Blind Preference Optimization [49.044737689613164]
MLLM(Multimodal Large Language Models)は、マルチモーダル理解、推論、相互作用において印象的な能力を示す。 MLLMと人間の嗜好の整合における選好最適化の有効性から,MLLMの安全関連選好データが必要である。我々は、無害なマルチモーダルアシスタントに対してMMSafe-PO選好データセットを構築し、マルチモーダル命令、会話形式、人間のフィードバックからのランク付けされたペア応答を特徴付ける。
論文参考訳（メタデータ） (2025-03-18T12:02:38Z)
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。 VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文参考訳（メタデータ） (2025-02-14T08:44:43Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Large Language Model Supply Chain: Open Problems From the Security Perspective [25.320736806895976]
大規模言語モデル(LLM)はソフトウェア開発パラダイムを変えつつあり、学術と産業の両方から大きな注目を集めています。各コンポーネントの潜在的なセキュリティリスクとLCM SCのコンポーネント間の統合について議論する第一歩を踏み出します。
論文参考訳（メタデータ） (2024-11-03T15:20:21Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。本手法は良性を保持しながらタンパー抵抗を大幅に改善する。以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文参考訳（メタデータ） (2024-08-01T17:59:12Z)
Refusing Safe Prompts for Multi-modal Large Language Models [36.276781604895454]
安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。本稿では,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。 4つのデータセットにわたる4つのMLLMに対してMLLM-Refusalを評価する。
論文参考訳（メタデータ） (2024-07-12T07:18:05Z)
A New Era in LLM Security: Exploring Security Concerns in Real-World LLM-based Systems [47.18371401090435]
我々は,LLMではなく,Large Language Model(LLM)システムのセキュリティを分析する。我々は,多層・多段階のアプローチを提案し,これを最先端のOpenAI GPT4に適用する。 OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
論文参考訳（メタデータ） (2024-02-28T19:00:12Z)
ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。 ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文参考訳（メタデータ） (2024-02-26T09:43:02Z)
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。 MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文参考訳（メタデータ） (2024-01-05T17:05:42Z)
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-29T12:49:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。