論文の概要: AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs
- arxiv url: http://arxiv.org/abs/2601.04736v1
- Date: Thu, 08 Jan 2026 08:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.123492
- Title: AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs
- Title(参考訳): AM$^3$Safety:MLLMのマルチモーダルマルチターン安全のためのデータ効率向上に向けて
- Authors: Han Zhu, Jiale Chen, Chengkun Cai, Shengjie Sun, Haoran Li, Yujin Zhou, Chi-Min Chan, Pengcheng Wen, Lei Li, Sirui Han, Yike Guo,
- Abstract要約: 提案するInterSafe-Vは,11,270件の対話と500件の特別設計のVQAサンプルを含む,オープンソースのマルチモーダル対話データセットである。
我々は,グループ相対的政策最適化とコールドスタートの拒絶フェーズを組み合わせたフレームワークAM$3$Safetyを提案する。
Qwen2.5-VL-7BとLLaVA-NeXT-7Bの実験では、攻撃成功率が10%以上低下した。
- 参考スコア(独自算出の注目度): 30.026306656765314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) are increasingly deployed in interactive applications. However, their safety vulnerabilities become pronounced in multi-turn multi-modal scenarios, where harmful intent can be gradually reconstructed across turns, and security protocols fade into oblivion as the conversation progresses. Existing Reinforcement Learning from Human Feedback (RLHF) alignment methods are largely developed for single-turn visual question-answer (VQA) task and often require costly manual preference annotations, limiting their effectiveness and scalability in dialogues. To address this challenge, we present InterSafe-V, an open-source multi-modal dialogue dataset containing 11,270 dialogues and 500 specially designed refusal VQA samples. This dataset, constructed through interaction between several models, is designed to more accurately reflect real-world scenarios and includes specialized VQA pairs tailored for specific domains. Building on this dataset, we propose AM$^3$Safety, a framework that combines a cold-start refusal phase with Group Relative Policy Optimization (GRPO) fine-tuning using turn-aware dual-objective rewards across entire dialogues. Experiments on Qwen2.5-VL-7B-Instruct and LLaVA-NeXT-7B show more than 10\% decrease in Attack Success Rate (ASR) together with an increment of at least 8\% in harmless dimension and over 13\% in helpful dimension of MLLMs on multi-modal multi-turn safety benchmarks, while preserving their general abilities.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、インタラクティブなアプリケーションにますます多くデプロイされている。
しかし、その安全性上の脆弱性は、ターン毎に有害な意図を徐々に再構築できるマルチターンマルチモーダルシナリオにおいて顕著になり、会話が進むにつれてセキュリティプロトコルが消滅する。
既存のRLHF(Reinforcement Learning from Human Feedback)アライメント手法は、主にシングルターン視覚質問応答(VQA)タスクのために開発されており、対話における有効性とスケーラビリティを制限し、手作業による好みのアノテーションを必要とすることが多い。
この課題に対処するために,11,270件の対話と500件の特別設計の拒否VQAサンプルを含むオープンソースのマルチモーダル対話データセットであるInterSafe-Vを提案する。
このデータセットは、複数のモデル間のインタラクションによって構築され、現実世界のシナリオをより正確に反映するように設計されており、特定のドメインに適した特別なVQAペアを含んでいる。
このデータセットに基づいてAM$^3$Safetyを提案する。このフレームワークは、コールドスタートの拒絶フェーズとグループ相対ポリシー最適化(GRPO)の微調整を組み合わせた、対話全体にわたってターンアウェアな二重目的報酬を用いたフレームワークである。
Qwen2.5-VL-7B-InstructとLLaVA-NeXT-7Bの実験では、アタック成功率(ASR)は少なくとも害のない次元では8倍、マルチモーダルマルチターン安全ベンチマークでは13%以上減少し、一般の能力を保っている。
関連論文リスト
- SafeMT: Multi-turn Safety for Multimodal Language Models [42.59582247058264]
画像に付随する有害なクエリから発生する様々な長さの対話を特徴付けるベンチマークであるSafeMTを紹介する。
このベンチマークは合計1万のサンプルで構成されており、17の異なるシナリオと4つのjailbreakメソッドを含んでいる。
このベンチマークを用いて17種類のモデルの安全性を評価し、有害な対話のターン数が増加するにつれて、これらのモデルに対する攻撃が成功するリスクが増加することを明らかにする。
本稿では,会話中に隠された悪意のある意図を検知し,MLLMに関連する安全ポリシーを提供する対話安全モデレータを提案する。
論文 参考訳(メタデータ) (2025-10-14T04:24:07Z) - LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models [1.4923957493548121]
悪意のある意図は、マルチモーダル・マルチトゥル(MMT)ダイアログにおいて、ターンとイメージに分散することができる。
MMT対話の安全性に関する最初の体系的定義と研究について述べる。
我々は、MMDSのための安全でないマルチターン対話を生成するために、自動マルチモーダル・マルチターン・リピート・フレームワークを開発した。
ユーザ入力とアシスタント応答のリスクを共同で検出し,評価する強力なツールであるLLaVAShieldを提案する。
論文 参考訳(メタデータ) (2025-09-30T07:42:23Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-31T18:38:23Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。