論文の概要: Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models
- arxiv url: http://arxiv.org/abs/2509.15478v1
- Date: Thu, 18 Sep 2025 22:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.929909
- Title: Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models
- Title(参考訳): マルチモーダル言語モデルのレッドチーム化: 急激なモダリティとモデル間のハーム評価
- Authors: Madison Van Doren, Casey Ford, Emily Dix,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は, 現実の応用においてますます利用されているが, 敵条件下での安全性はいまだ検討されていない。
本研究は,テキストのみおよびマルチモーダル形式にまたがる敵対的プロンプトに曝露した4つのMLLMの無害性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly used in real world applications, yet their safety under adversarial conditions remains underexplored. This study evaluates the harmlessness of four leading MLLMs (GPT-4o, Claude Sonnet 3.5, Pixtral 12B, and Qwen VL Plus) when exposed to adversarial prompts across text-only and multimodal formats. A team of 26 red teamers generated 726 prompts targeting three harm categories: illegal activity, disinformation, and unethical behaviour. These prompts were submitted to each model, and 17 annotators rated 2,904 model outputs for harmfulness using a 5-point scale. Results show significant differences in vulnerability across models and modalities. Pixtral 12B exhibited the highest rate of harmful responses (~62%), while Claude Sonnet 3.5 was the most resistant (~10%). Contrary to expectations, text-only prompts were slightly more effective at bypassing safety mechanisms than multimodal ones. Statistical analysis confirmed that both model type and input modality were significant predictors of harmfulness. These findings underscore the urgent need for robust, multimodal safety benchmarks as MLLMs are deployed more widely.
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は, 現実の応用においてますます利用されているが, 敵条件下での安全性はいまだ検討されていない。
本研究は,テキストのみ,マルチモーダルフォーマットの4種類のMLLM(GPT-4o, Claude Sonnet 3.5, Pixtral 12B, Qwen VL Plus)の非害性を評価する。
26人のレッドチームメンバーからなるチームは、違法な活動、偽情報、非倫理的な行動という3つの有害なカテゴリをターゲットにした726のプロンプトを作成した。
これらのプロンプトは各モデルに送信され、17のアノテータは5点スケールで2,904モデルのアウトプットを有害と評価した。
結果は、モデルとモダリティ間での脆弱性の重大な違いを示している。
Pixtral 12Bは最も高い毒性(約62%)を示し、Claude Sonnet 3.5は最も耐性(約10%)を示した。
期待とは対照的に、テキストのみのプロンプトは、マルチモーダルのプロンプトよりも安全性のメカニズムをバイパスするのに少し効果があった。
統計的解析により、モデルタイプと入力モダリティの両方が有害性の有意な予測因子であることが確認された。
これらの結果は、MLLMがより広範囲にデプロイされるため、堅牢でマルチモーダルな安全ベンチマークの緊急の必要性を浮き彫りにしている。
関連論文リスト
- Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability [10.607081850023286]
ISEval(Input Scrutiny Ability Evaluation Framework)は,7つの欠陥のある前提と3つの評価指標を含む。
ほとんどのモデルは、ガイダンスなしで欠陥のあるテキストの前提を積極的に検出するのに苦労している。
これらの知見は、LMMの入力妥当性の積極的な検証を強化する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-06T02:13:46Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。