論文の概要: MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2505.17144v1
- Date: Thu, 22 May 2025 07:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.607894
- Title: MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models
- Title(参考訳): MDIT-Bench:大規模マルチモーダルモデルにおけるデュアルインプシット毒性の評価
- Authors: Bohan Jin, Shuhan Qi, Kehai Chen, Xinyi Guo, Xuan Wang,
- Abstract要約: MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark (MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark) と呼ばれる新しい毒性ベンチマークを導入する。
MDIT-Benchは、12のカテゴリ、23のサブカテゴリ、780のトピックを含む317,638の質問で、二重単純毒性に対するモデルの感度を評価するためのベンチマークである。
実験では, MDIT-Benchを13個の顕著なLMMで実施し, これらのLMMは二重単純毒性を効果的に扱えないことを示した。
- 参考スコア(独自算出の注目度): 16.3469883819979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of Large Multimodal Models (LMMs) has raised concerns about model toxicity. However, current research mainly focuses on explicit toxicity, with less attention to some more implicit toxicity regarding prejudice and discrimination. To address this limitation, we introduce a subtler type of toxicity named dual-implicit toxicity and a novel toxicity benchmark termed MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark. Specifically, we first create the MDIT-Dataset with dual-implicit toxicity using the proposed Multi-stage Human-in-loop In-context Generation method. Based on this dataset, we construct the MDIT-Bench, a benchmark for evaluating the sensitivity of models to dual-implicit toxicity, with 317,638 questions covering 12 categories, 23 subcategories, and 780 topics. MDIT-Bench includes three difficulty levels, and we propose a metric to measure the toxicity gap exhibited by the model across them. In the experiment, we conducted MDIT-Bench on 13 prominent LMMs, and the results show that these LMMs cannot handle dual-implicit toxicity effectively. The model's performance drops significantly in hard level, revealing that these LMMs still contain a significant amount of hidden but activatable toxicity. Data are available at https://github.com/nuo1nuo/MDIT-Bench.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の普及により、モデル毒性に対する懸念が高まっている。
しかしながら、現在の研究は主に明らかな毒性に焦点を当てており、偏見や差別に関するより暗黙的な毒性への注意は少ない。
MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark (MDIT-Bench: Multimodal Dual-Implicit Toxicity Benchmark) と呼ばれる新しい毒性ベンチマークを導入する。
具体的には,多段階のヒューマン・イン・ループ・イン・ループ・イン・コンテクスト・ジェネレーション法を用いてMDIT-Datasetを二重単純毒性で生成する。
このデータセットに基づいてMDIT-Benchを構築し,12のカテゴリ,23のサブカテゴリ,780のトピックを対象とした317,638の質問で,二重単純毒性に対するモデルの感度を評価する。
MDIT-Benchには3つの難易度が含まれており, それらのモデルで示される毒性ギャップを測定するための指標を提案する。
実験では, MDIT-Benchを13個の顕著なLMMで実施し, これらのLMMは二重単純毒性を効果的に扱えないことを示した。
モデルの性能はハードレベルで著しく低下し、これらのLMMは依然としてかなりの量の隠蔽されているが実行可能な毒性を含んでいることが明らかとなった。
データはhttps://github.com/nuo1nuo/MDIT-Bench.comで公開されている。
関連論文リスト
- GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models [0.5597620745943381]
大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。
毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。
我々は4つの最先端LCMを用いて定量的・定性的な実験評価を行う。
論文 参考訳(メタデータ) (2025-01-03T10:08:49Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。