論文の概要: Is GPT-4o mini Blinded by its Own Safety Filters? Exposing the Multimodal-to-Unimodal Bottleneck in Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2509.13608v1
- Date: Wed, 17 Sep 2025 00:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.677558
- Title: Is GPT-4o mini Blinded by its Own Safety Filters? Exposing the Multimodal-to-Unimodal Bottleneck in Hate Speech Detection
- Title(参考訳): GPT-4oミニは独自の安全フィルタでブラインドされているか?
- Authors: Niruthiha Selvanayagam, Ted Kurti,
- Abstract要約: 本稿では,OpenAI の GPT-4o mini について,マルチモーダルヘイトスピーチ検出の難しい課題について,系統的解析を行った。
Hateful Memes Challengeデータセットを使用して、500サンプルのマルチフェーズ調査を行い、モデルの推論と障害モードを調査します。
我々の中心的な発見は、「Unimodal Bottleneck」というアーキテクチャ上の欠陥を実験的に同定することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Multimodal Models (LMMs) become integral to daily digital life, understanding their safety architectures is a critical problem for AI Alignment. This paper presents a systematic analysis of OpenAI's GPT-4o mini, a globally deployed model, on the difficult task of multimodal hate speech detection. Using the Hateful Memes Challenge dataset, we conduct a multi-phase investigation on 500 samples to probe the model's reasoning and failure modes. Our central finding is the experimental identification of a "Unimodal Bottleneck," an architectural flaw where the model's advanced multimodal reasoning is systematically preempted by context-blind safety filters. A quantitative validation of 144 content policy refusals reveals that these overrides are triggered in equal measure by unimodal visual 50% and textual 50% content. We further demonstrate that this safety system is brittle, blocking not only high-risk imagery but also benign, common meme formats, leading to predictable false positives. These findings expose a fundamental tension between capability and safety in state-of-the-art LMMs, highlighting the need for more integrated, context-aware alignment strategies to ensure AI systems can be deployed both safely and effectively.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)が日々のデジタル生活に不可欠なものになると、その安全性アーキテクチャを理解することがAIアライメントにとって重要な問題となる。
本稿では,マルチモーダルヘイトスピーチ検出の難しい課題に対して,OpenAIのGPT-4o mini(グローバル展開モデル)を体系的に解析する。
Hateful Memes Challengeデータセットを使用して、500サンプルのマルチフェーズ調査を行い、モデルの推論と障害モードを調査します。
我々の中心的な発見は、「Unimodal Bottleneck」というアーキテクチャ上の欠陥を実験的に同定することである。
144のコンテンツポリシーの拒否を定量的に検証すると、これらのオーバーライドは、一過性の視覚的50%とテキスト的50%のコンテンツによって等しく引き起こされることが明らかになった。
さらに、この安全性システムが脆弱であることを示し、リスクの高い画像だけでなく、良質で共通のミームフォーマットをブロックし、予測可能な偽陽性をもたらす。
これらの発見は、最先端のLMMにおける能力と安全性の基本的な緊張を浮き彫りにして、AIシステムが安全かつ効果的にデプロイできるように、より統合されたコンテキスト対応のアライメント戦略の必要性を強調している。
関連論文リスト
- Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection [27.23138831535272]
インターネットでは、憎しみを込めたミームが大きな関心事になっている。
ヘイトフルミーム検出のためのロバスト適応フレームワークを提案する。
本手法は敵攻撃下での堅牢性を向上する。
論文 参考訳(メタデータ) (2025-02-18T17:07:29Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts [14.33139608409507]
We propose FigStep, a simple yet effective black-box jailbreak algorithm against LVLMs。
FigStepは、禁止されたコンテンツをタイポグラフィーで画像に変換し、安全アライメントをバイパスする。
我々の研究は、現在のLVLMがジェイルブレイク攻撃に対して脆弱であることを明らかにし、新しいモダリティ間の安全アライメント技術の必要性を強調している。
論文 参考訳(メタデータ) (2023-11-09T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。