論文の概要: MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2505.17144v1
- Date: Thu, 22 May 2025 07:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.607894
- Title: MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models
- Title(参考訳): MDIT-Bench:大規模マルチモーダルモデルにおけるデュアルインプシット毒性の評価
- Authors: Bohan Jin, Shuhan Qi, Kehai Chen, Xinyi Guo, Xuan Wang,
- Abstract要約: MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark (MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark) と呼ばれる新しい毒性ベンチマークを導入する。
MDIT-Benchは、12のカテゴリ、23のサブカテゴリ、780のトピックを含む317,638の質問で、二重単純毒性に対するモデルの感度を評価するためのベンチマークである。
実験では, MDIT-Benchを13個の顕著なLMMで実施し, これらのLMMは二重単純毒性を効果的に扱えないことを示した。
- 参考スコア(独自算出の注目度): 16.3469883819979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of Large Multimodal Models (LMMs) has raised concerns about model toxicity. However, current research mainly focuses on explicit toxicity, with less attention to some more implicit toxicity regarding prejudice and discrimination. To address this limitation, we introduce a subtler type of toxicity named dual-implicit toxicity and a novel toxicity benchmark termed MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark. Specifically, we first create the MDIT-Dataset with dual-implicit toxicity using the proposed Multi-stage Human-in-loop In-context Generation method. Based on this dataset, we construct the MDIT-Bench, a benchmark for evaluating the sensitivity of models to dual-implicit toxicity, with 317,638 questions covering 12 categories, 23 subcategories, and 780 topics. MDIT-Bench includes three difficulty levels, and we propose a metric to measure the toxicity gap exhibited by the model across them. In the experiment, we conducted MDIT-Bench on 13 prominent LMMs, and the results show that these LMMs cannot handle dual-implicit toxicity effectively. The model's performance drops significantly in hard level, revealing that these LMMs still contain a significant amount of hidden but activatable toxicity. Data are available at https://github.com/nuo1nuo/MDIT-Bench.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の普及により、モデル毒性に対する懸念が高まっている。
しかしながら、現在の研究は主に明らかな毒性に焦点を当てており、偏見や差別に関するより暗黙的な毒性への注意は少ない。
MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark (MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark) と呼ばれる新しい毒性ベンチマークを導入する。
具体的には,多段階のヒューマン・イン・ループ・イン・ループ・イン・コンテクスト・ジェネレーション法を用いてMDIT-Datasetを二重単純毒性で生成する。
このデータセットに基づいてMDIT-Benchを構築し,12のカテゴリ,23のサブカテゴリ,780のトピックを対象とした317,638の質問で,二重単純毒性に対するモデルの感度を評価する。
MDIT-Benchには3つの難易度が含まれており, それらのモデルで示される毒性ギャップを測定するための指標を提案する。
実験では, MDIT-Benchを13個の顕著なLMMで実施し, これらのLMMは二重単純毒性を効果的に扱えないことを示した。
モデルの性能はハードレベルで著しく低下し、これらのLMMは依然としてかなりの量の隠蔽されているが実行可能な毒性を含んでいることが明らかとなった。
データはhttps://github.com/nuo1nuo/MDIT-Bench.comで公開されている。
関連論文リスト
- ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。