論文の概要: Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2604.08846v1
- Date: Fri, 10 Apr 2026 01:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.621423
- Title: Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs
- Title(参考訳): 辞書対応概念制御によるマルチモーダルLLMの保護
- Authors: Jinqi Luo, Jinyu Yang, Tal Neiman, Lei Fan, Bing Yin, Son Tran, Mubarak Shah, René Vidal,
- Abstract要約: 本稿では,MLLMアクティベーションの粒度制御を実現するために,キュレートされた概念辞書とスパースオートエンコーダ(SAE)を利用するフレームワークであるDictionary-Aligned Concept Control(DACO)を紹介する。
まず,40,000以上のキャプションイメージ刺激を検索し,それらのアクティベーションを概念方向に要約することで,15,000のマルチモーダル概念の辞書をキュレートする。
第2に、このキュレートされた辞書は、スパース符号化によって活性化を阻害することができることを示し、第3に、我々の辞書を用いて、SAEのトレーニングを初期化し、MLLMを保護するためにSAE原子のセマンティクスを自動的に注釈付けする新しいステアリング手法を提案する。
- 参考スコア(独自算出の注目度): 89.07972282630351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have been shown to be vulnerable to malicious queries that can elicit unsafe responses. Recent work uses prompt engineering, response classification, or finetuning to improve MLLM safety. Nevertheless, such approaches are often ineffective against evolving malicious patterns, may require rerunning the query, or demand heavy computational resources. Steering the activations of a frozen model at inference time has recently emerged as a flexible and effective solution. However, existing steering methods for MLLMs typically handle only a narrow set of safety-related concepts or struggle to adjust specific concepts without affecting others. To address these challenges, we introduce Dictionary-Aligned Concept Control (DACO), a framework that utilizes a curated concept dictionary and a Sparse Autoencoder (SAE) to provide granular control over MLLM activations. First, we curate a dictionary of 15,000 multimodal concepts by retrieving over 400,000 caption-image stimuli and summarizing their activations into concept directions. We name the dataset DACO-400K. Second, we show that the curated dictionary can be used to intervene activations via sparse coding. Third, we propose a new steering approach that uses our dictionary to initialize the training of an SAE and automatically annotate the semantics of the SAE atoms for safeguarding MLLMs. Experiments on multiple MLLMs (e.g., QwenVL, LLaVA, InternVL) across safety benchmarks (e.g., MM-SafetyBench, JailBreakV) show that DACO significantly improves MLLM safety while maintaining general-purpose capabilities.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、安全でない応答を誘発する悪意のあるクエリに対して脆弱であることが示されている。
最近の研究は、MLLMの安全性を向上させるために、迅速なエンジニアリング、応答分類、微調整を利用している。
それにもかかわらず、このようなアプローチは、しばしば悪意あるパターンの進化に対して効果がなく、クエリを再実行したり、重い計算資源を必要とすることがある。
推論時に凍結モデルのアクティベーションをステアリングすることは、最近、柔軟で効果的なソリューションとして現れている。
しかし、MLLMの既存のステアリング手法は、通常、限られた安全に関する概念のみを扱うか、特定の概念を他のものに影響を与えずに調整するのに苦労する。
これらの課題に対処するため、我々は、MLLMアクティベーションの粒度制御を提供するために、キュレートされた概念辞書とスパースオートエンコーダ(SAE)を利用するフレームワークであるDictionary-Aligned Concept Control (DACO)を導入する。
まず,40,000以上のキャプションイメージ刺激を検索し,それらのアクティベーションを概念方向に要約することで,15,000のマルチモーダル概念の辞書をキュレートする。
データセットはDACO-400Kと命名する。
第二に、このキュレートされた辞書はスパース符号化によるアクティベーションの介入に利用できることを示す。
第3に,我々の辞書を用いてSAEのトレーニングを初期化し,MLLMの保護のためにSAE原子のセマンティクスを自動的に注釈付けする新たなステアリング手法を提案する。
複数のMLLM(例えば、QwenVL、LLaVA、InternVL)の安全性ベンチマーク(例えば、MM-SafetyBench、JailBreakV)による実験では、DACOは汎用能力を維持しながらMLLMの安全性を著しく改善している。
関連論文リスト
- Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models [30.400796921799778]
視覚言語行動(VLA)モデルは、マルチモーダル命令を実行可能な動作に変換することで知覚行動ループを閉じる。
推論時間安全制御のための概念に基づく辞書学習フレームワークを提案する。
Libero-Harm、BadRobot、RoboPair、IS-Benchの実験により、我々のアプローチが最先端の防衛性能を達成することを示す。
論文 参考訳(メタデータ) (2026-02-02T09:06:43Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。