論文の概要: SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification
- arxiv url: http://arxiv.org/abs/2512.15052v1
- Date: Wed, 17 Dec 2025 03:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.845792
- Title: SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification
- Title(参考訳): SGM:ニューロンレベルデトキシ化によるマルチモーダル大言語モデルの安全性ガラス
- Authors: Hongbo Wang, MaungMaung AprilPyone, Isao Echizen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、多モーダル生成を可能にするが、有毒、偏り、およびNSFW信号を事前学習コーパスから継承する。
我々は、毒性ニューロンに対する安全眼鏡のように作用する、ホワイトボックスニューロンレベルのマルチモーダル介入であるSGMを提案する。
- 参考スコア(独自算出の注目度): 11.083274646861312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disclaimer: Samples in this paper may be harmful and cause discomfort. Multimodal large language models (MLLMs) enable multimodal generation but inherit toxic, biased, and NSFW signals from weakly curated pretraining corpora, causing safety risks, especially under adversarial triggers that late, opaque training-free detoxification methods struggle to handle. We propose SGM, a white-box neuron-level multimodal intervention that acts like safety glasses for toxic neurons: it selectively recalibrates a small set of toxic expert neurons via expertise-weighted soft suppression, neutralizing harmful cross-modal activations without any parameter updates. We establish MM-TOXIC-QA, a multimodal toxicity evaluation framework, and compare SGM with existing detoxification techniques. Experiments on open-source MLLMs show that SGM mitigates toxicity in standard and adversarial conditions, cutting harmful rates from 48.2\% to 2.5\% while preserving fluency and multimodal reasoning. SGM is extensible, and its combined defenses, denoted as SGM*, integrate with existing detoxification methods for stronger safety performance, providing an interpretable, low-cost solution for toxicity-controlled multimodal generation.
- Abstract(参考訳): 不快感:本論文のサンプルは有害であり、不快感を引き起こす可能性がある。
MLLM(Multimodal large language model)は、マルチモーダル生成を可能にするが、毒性、偏り、およびNSFW信号は、弱い訓練前コーパスから受け継がれる。
有害ニューロンに対する安全眼鏡のように作用するホワイトボックスニューロンレベルのマルチモーダル介入であるSGMを提案する。
マルチモーダル毒性評価フレームワークMM-TOXIC-QAを構築し,SGMと既存の解毒技術との比較を行った。
オープンソースのMLLMの実験では、SGMは標準条件と逆境条件で毒性を軽減し、拡散率とマルチモーダル推論を保ちながら48.2\%から2.5\%に有害率を下げている。
SGMは拡張可能であり、その複合防御はSGM*と表現され、既存の解毒法と統合して安全性を向上し、毒性制御マルチモーダル生成のための解釈可能で低コストなソリューションを提供する。
関連論文リスト
- Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention [6.808534332444413]
大きな言語モデル(LLM)は強力なテキストジェネレータである。
LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
論文 参考訳(メタデータ) (2026-02-06T11:33:17Z) - Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework [58.01529356381494]
Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。
隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。
本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
論文 参考訳(メタデータ) (2026-02-03T08:54:25Z) - Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation [12.58703387927632]
本研究では, ニューロンレベルの毒性指標の安定性, 構造的(層状)表現の利点, 毒性発生を誘導する機構の解釈可能性について検討した。
本稿では,言語モデルの最終出力層を固有分解する手法であるEigenShiftを提案する。
論文 参考訳(メタデータ) (2025-09-20T12:21:52Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models [16.3469883819979]
MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark (MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark) と呼ばれる新しい毒性ベンチマークを導入する。
MDIT-Benchは、12のカテゴリ、23のサブカテゴリ、780のトピックを含む317,638の質問で、二重単純毒性に対するモデルの感度を評価するためのベンチマークである。
実験では, MDIT-Benchを13個の顕著なLMMで実施し, これらのLMMは二重単純毒性を効果的に扱えないことを示した。
論文 参考訳(メタデータ) (2025-05-22T07:30:01Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。