論文の概要: Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions
- arxiv url: http://arxiv.org/abs/2507.22617v1
- Date: Wed, 30 Jul 2025 12:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.195731
- Title: Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions
- Title(参考訳): 平易な視点でのヘイト:AI生成したヘイトフルイリュージョンをモデレーションするリスクについて
- Authors: Yiting Qu, Ziqing Yang, Yihan Ma, Michael Backes, Savvas Zannettou, Yang Zhang,
- Abstract要約: 本稿では,スケーラブルなヘイトフルイリュージョン生成のリスクと,現在のコンテンツモデレーションモデルを回避する可能性について検討する。
我々は62のヘイトメッセージに条件付き安定拡散と制御ネットを用いて1,860個の光学錯視を生成する。
そのうち1,571件はヘイトメッセージの埋め込みに成功し、Hateful Illusionデータセットを形成している。
- 参考スコア(独自算出の注目度): 26.051334752537546
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in text-to-image diffusion models have enabled the creation of a new form of digital art: optical illusions--visual tricks that create different perceptions of reality. However, adversaries may misuse such techniques to generate hateful illusions, which embed specific hate messages into harmless scenes and disseminate them across web communities. In this work, we take the first step toward investigating the risks of scalable hateful illusion generation and the potential for bypassing current content moderation models. Specifically, we generate 1,860 optical illusions using Stable Diffusion and ControlNet, conditioned on 62 hate messages. Of these, 1,571 are hateful illusions that successfully embed hate messages, either overtly or subtly, forming the Hateful Illusion dataset. Using this dataset, we evaluate the performance of six moderation classifiers and nine vision language models (VLMs) in identifying hateful illusions. Experimental results reveal significant vulnerabilities in existing moderation models: the detection accuracy falls below 0.245 for moderation classifiers and below 0.102 for VLMs. We further identify a critical limitation in their vision encoders, which mainly focus on surface-level image details while overlooking the secondary layer of information, i.e., hidden messages. To address this risk, we explore preliminary mitigation measures and identify the most effective approaches from the perspectives of image transformations and training-level strategies.
- Abstract(参考訳): テキストと画像の拡散モデルの最近の進歩は、新しい形のデジタルアートの作成を可能にした。
しかし、敵はそのような手法を誤用して憎悪の錯覚を生じさせ、特定の憎悪メッセージを無害な場面に埋め込んで、ウェブコミュニティに広める。
本研究では,スケーラブルなヘイトフルイリュージョン生成のリスクと,現在のコンテンツモデレーションモデルをバイパスする可能性を検討するための第一歩を踏み出した。
具体的には、62のヘイトメッセージに条件付きで、安定拡散と制御ネットを用いて1,860個の光学錯視を生成する。
そのうち1,571件はヘイトメッセージの埋め込みに成功し、Hateful Illusionデータセットを形成している。
このデータセットを用いて、6つのモデレーション分類器と9つの視覚言語モデル(VLM)の性能評価を行った。
検出精度は、モデレーション分類器では0.245以下、VLMでは0.102以下である。
我々はさらに、視覚エンコーダの限界を識別し、主に表面レベルの画像の詳細に焦点を当て、隠されたメッセージの二次層を見渡す。
このリスクに対処するため、画像変換とトレーニングレベルの戦略の観点から、予備緩和策を検討し、最も効果的なアプローチを特定する。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - SemVink: Advancing VLMs' Semantic Understanding of Optical Illusions via Visual Global Thinking [12.215295420714787]
視覚言語モデル(VLM)は、セマンティックなタスクでは優れているが、中心となる人間の能力には優れている。
HC-Benchは、隠れテキスト、オブジェクト、イリュージョンを備えた112の画像のベンチマークである。
本稿では,余剰な視覚ノイズを排除し,99%の精度を解放するSemVink(Semantic Visual Thinking)を提案する。
論文 参考訳(メタデータ) (2025-06-03T12:33:47Z) - IllusionBench+: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Counterfactual Explanations for Face Forgery Detection via Adversarial Removal of Artifacts [23.279652897139286]
ディープフェイクとして知られる、非常にリアルなAI生成顔偽造は、深刻な社会的懸念を引き起こしている。
本稿では,人工物除去の観点からの顔偽造検出の非現実的説明を行う。
本手法は,90%以上の攻撃成功率と優れた攻撃伝達性を実現する。
論文 参考訳(メタデータ) (2024-04-12T09:13:37Z) - Diffusion Illusions: Hiding Images in Plain Sight [37.87050866208039]
拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。
我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。
これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2023-12-06T18:59:18Z) - MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning [59.988458964353754]
テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。
既存のアプローチは、悪意のある使用から"学習不能"なイメージをレンダリングするために、知覚不可能な方法でユーザーイメージを摂動させる。
メタ学習フレームワークを用いて,バイレベル中毒の問題を解決するメタクラックを提案する。
論文 参考訳(メタデータ) (2023-11-22T03:31:31Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。