論文の概要: RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting
- arxiv url: http://arxiv.org/abs/2412.18826v1
- Date: Wed, 25 Dec 2024 08:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:04.956007
- Title: RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting
- Title(参考訳): RapGuard: Rationale-aware Defensive Promptingによるマルチモーダルな大規模言語モデルの保護
- Authors: Yilei Jiang, Yingshui Tan, Xiangyu Yue,
- Abstract要約: RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
- 参考スコア(独自算出の注目度): 7.0595410083835315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have made remarkable progress in vision-language reasoning, they are also more susceptible to producing harmful content compared to models that focus solely on text. Existing defensive prompting techniques rely on a static, unified safety guideline that fails to account for the specific risks inherent in different multimodal contexts. To address these limitations, we propose RapGuard, a novel framework that uses multimodal chain-of-thought reasoning to dynamically generate scenario-specific safety prompts. RapGuard enhances safety by adapting its prompts to the unique risks of each input, effectively mitigating harmful outputs while maintaining high performance on benign tasks. Our experimental results across multiple MLLM benchmarks demonstrate that RapGuard achieves state-of-the-art safety performance, significantly reducing harmful content without degrading the quality of responses.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語推論において顕著な進歩を遂げているが、テキストのみに焦点を当てたモデルに比べて有害なコンテンツを生み出す可能性も高い。
既存の防御プロンプト技術は、異なるマルチモーダルコンテキストに固有の特定のリスクを考慮できない、静的で統一された安全ガイドラインに依存している。
これらの制約に対処するため,シナリオ固有の安全プロンプトを動的に生成するマルチモーダル連鎖推論を用いた新しいフレームワークRapGuardを提案する。
RapGuardは、各入力のユニークなリスクにプロンプトを適用することで安全性を高め、有害な出力を効果的に軽減し、良質なタスクで高いパフォーマンスを維持する。
複数のMLLMベンチマークによる実験結果から,RapGuardは最先端の安全性能を実現し,応答品質を劣化させることなく有害なコンテンツを著しく低減できることが示された。
関連論文リスト
- Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Universal Adversarial Attack on Aligned Multimodal LLMs [1.5146068448101746]
マルチモーダル大規模言語モデル(LLM)に対する普遍的敵攻撃を提案する。
私たちは、ターゲットとするフレーズや、その他の安全でないコンテンツでモデルに応答するよう強制する合成画像を作成します。
コードとデータセットはApache-2.0ライセンスでリリースします。
論文 参考訳(メタデータ) (2025-02-11T22:07:47Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。