論文の概要: Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework
- arxiv url: http://arxiv.org/abs/2602.03268v1
- Date: Tue, 03 Feb 2026 08:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.338058
- Title: Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework
- Title(参考訳): トキシシティアソシエーショングラフによるマルチモーダルデータの被覆毒性の解明:グラフに基づくメトリックと解釈可能な検出フレームワーク
- Authors: Guanzong Wu, Zihao Zhu, Siwei Lyu, Baoyuan Wu,
- Abstract要約: Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。
隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。
本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
- 参考スコア(独自算出の注目度): 58.01529356381494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting toxicity in multimodal data remains a significant challenge, as harmful meanings often lurk beneath seemingly benign individual modalities: only emerging when modalities are combined and semantic associations are activated. To address this, we propose a novel detection framework based on Toxicity Association Graphs (TAGs), which systematically model semantic associations between innocuous entities and latent toxic implications. Leveraging TAGs, we introduce the first quantifiable metric for hidden toxicity, the Multimodal Toxicity Covertness (MTC), which measures the degree of concealment in toxic multimodal expressions. By integrating our detection framework with the MTC metric, our approach enables precise identification of covert toxicity while preserving full interpretability of the decision-making process, significantly enhancing transparency in multimodal toxicity detection. To validate our method, we construct the Covert Toxic Dataset, the first benchmark specifically designed to capture high-covertness toxic multimodal instances. This dataset encodes nuanced cross-modal associations and serves as a rigorous testbed for evaluating both the proposed metric and detection framework. Extensive experiments demonstrate that our approach outperforms existing methods across both low- and high-covertness toxicity regimes, while delivering clear, interpretable, and auditable detection outcomes. Together, our contributions advance the state of the art in explainable multimodal toxicity detection and lay the foundation for future context-aware and interpretable approaches. Content Warning: This paper contains examples of toxic multimodal content that may be offensive or disturbing to some readers. Reader discretion is advised.
- Abstract(参考訳): 多モーダルデータにおける毒性の検出は重要な課題であり、有害な意味はしばしば、良質な個々のモダリティの下に潜んでいる: モダリティが組み合わされ、意味的関連が活性化されるときにのみ現れる。
そこで本研究では, 有害物質と有害物質とのセマンティックな関連を体系的にモデル化する, 毒性関連グラフ(TAG)に基づく新しい検出フレームワークを提案する。
TAGを活用することで,有毒なマルチモーダル表現の隠蔽度を計測するMTC(Multimodal Toxicity Covertness)を初めて導入する。
本手法は,本手法をMCC測定基準と統合することにより,意思決定プロセスの完全解釈性を維持しつつ,隠蔽毒性の正確な同定を可能にし,マルチモーダル毒性検出における透明性を著しく向上させる。
提案手法を検証するために,高被覆性有毒なマルチモーダルインスタンスをキャプチャするために設計された最初のベンチマークであるCovert Toxic Datasetを構築した。
このデータセットは、ニュアンス付きクロスモーダルアソシエーションを符号化し、提案したメトリックと検出フレームワークの両方を評価するための厳密なテストベッドとして機能する。
広範囲にわたる実験により, 本手法は, 低濃度および高濃度の毒性レギュラーにおいて既存の方法よりも優れており, 明瞭で解釈可能な, 聴覚的な検出結果が得られている。
共に、我々は、説明可能なマルチモーダル毒性の検出における最先端の進歩を推し進め、将来的な文脈認識および解釈可能なアプローチの基礎を築いた。
コンテンツ警告(Content Warning):本論文は、一部の読者にとって攻撃的または邪魔な、有毒なマルチモーダルコンテンツの例を含む。
読者の判断は推奨される。
関連論文リスト
- Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models [16.3469883819979]
MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark (MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark) と呼ばれる新しい毒性ベンチマークを導入する。
MDIT-Benchは、12のカテゴリ、23のサブカテゴリ、780のトピックを含む317,638の質問で、二重単純毒性に対するモデルの感度を評価するためのベンチマークである。
実験では, MDIT-Benchを13個の顕著なLMMで実施し, これらのLMMは二重単純毒性を効果的に扱えないことを示した。
論文 参考訳(メタデータ) (2025-05-22T07:30:01Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA [0.0]
このデータセットは、LLaVA事前トレーニングデータセットにおいて、有害な画像テキストペアの7,531を除去する。
堅牢な毒性検出パイプラインを実装するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2025-05-09T18:01:50Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。