論文の概要: SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification
- arxiv url: http://arxiv.org/abs/2512.15052v1
- Date: Wed, 17 Dec 2025 03:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.845792
- Title: SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification
- Title(参考訳): SGM:ニューロンレベルデトキシ化によるマルチモーダル大言語モデルの安全性ガラス
- Authors: Hongbo Wang, MaungMaung AprilPyone, Isao Echizen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、多モーダル生成を可能にするが、有毒、偏り、およびNSFW信号を事前学習コーパスから継承する。
我々は、毒性ニューロンに対する安全眼鏡のように作用する、ホワイトボックスニューロンレベルのマルチモーダル介入であるSGMを提案する。
- 参考スコア(独自算出の注目度): 11.083274646861312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disclaimer: Samples in this paper may be harmful and cause discomfort. Multimodal large language models (MLLMs) enable multimodal generation but inherit toxic, biased, and NSFW signals from weakly curated pretraining corpora, causing safety risks, especially under adversarial triggers that late, opaque training-free detoxification methods struggle to handle. We propose SGM, a white-box neuron-level multimodal intervention that acts like safety glasses for toxic neurons: it selectively recalibrates a small set of toxic expert neurons via expertise-weighted soft suppression, neutralizing harmful cross-modal activations without any parameter updates. We establish MM-TOXIC-QA, a multimodal toxicity evaluation framework, and compare SGM with existing detoxification techniques. Experiments on open-source MLLMs show that SGM mitigates toxicity in standard and adversarial conditions, cutting harmful rates from 48.2\% to 2.5\% while preserving fluency and multimodal reasoning. SGM is extensible, and its combined defenses, denoted as SGM*, integrate with existing detoxification methods for stronger safety performance, providing an interpretable, low-cost solution for toxicity-controlled multimodal generation.
- Abstract(参考訳): 不快感:本論文のサンプルは有害であり、不快感を引き起こす可能性がある。
MLLM(Multimodal large language model)は、マルチモーダル生成を可能にするが、毒性、偏り、およびNSFW信号は、弱い訓練前コーパスから受け継がれる。
有害ニューロンに対する安全眼鏡のように作用するホワイトボックスニューロンレベルのマルチモーダル介入であるSGMを提案する。
マルチモーダル毒性評価フレームワークMM-TOXIC-QAを構築し,SGMと既存の解毒技術との比較を行った。
オープンソースのMLLMの実験では、SGMは標準条件と逆境条件で毒性を軽減し、拡散率とマルチモーダル推論を保ちながら48.2\%から2.5\%に有害率を下げている。
SGMは拡張可能であり、その複合防御はSGM*と表現され、既存の解毒法と統合して安全性を向上し、毒性制御マルチモーダル生成のための解釈可能で低コストなソリューションを提供する。
関連論文リスト
- MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models [16.3469883819979]
MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark (MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark) と呼ばれる新しい毒性ベンチマークを導入する。
MDIT-Benchは、12のカテゴリ、23のサブカテゴリ、780のトピックを含む317,638の質問で、二重単純毒性に対するモデルの感度を評価するためのベンチマークである。
実験では, MDIT-Benchを13個の顕著なLMMで実施し, これらのLMMは二重単純毒性を効果的に扱えないことを示した。
論文 参考訳(メタデータ) (2025-05-22T07:30:01Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。