論文の概要: Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
- arxiv url: http://arxiv.org/abs/2505.06356v1
- Date: Fri, 09 May 2025 18:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.802558
- Title: Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
- Title(参考訳): 画像テキスト事前学習データセットにおける毒性の理解と緩和:LLaVAを事例として
- Authors: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam,
- Abstract要約: このデータセットは、LLaVA事前トレーニングデータセットにおいて、有害な画像テキストペアの7,531を除去する。
堅牢な毒性検出パイプラインを実装するためのガイドラインを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining datasets are foundational to the development of multimodal models, yet they often have inherent biases and toxic content from the web-scale corpora they are sourced from. In this paper, we investigate the prevalence of toxicity in LLaVA image-text pretraining dataset, examining how harmful content manifests in different modalities. We present a comprehensive analysis of common toxicity categories and propose targeted mitigation strategies, resulting in the creation of a refined toxicity-mitigated dataset. This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training dataset. We offer guidelines for implementing robust toxicity detection pipelines. Our findings underscore the need to actively identify and filter toxic content - such as hate speech, explicit imagery, and targeted harassment - to build more responsible and equitable multimodal systems. The toxicity-mitigated dataset is open source and is available for further research.
- Abstract(参考訳): プレトレーニングデータセットは、マルチモーダルモデルの開発の基礎となっているが、それらが引き起こすWebスケールコーパスから固有のバイアスと有害なコンテンツを持つことが多い。
本稿では,LLaVA画像テキスト事前学習データセットにおける毒性の有病率について検討し,有害な内容が異なるモダリティでどのように現れるかを検討した。
本稿では、一般的な毒性カテゴリーの包括的分析を行い、標的緩和戦略を提案し、改良された毒性緩和データセットを作成する。
このデータセットは、LLaVA事前トレーニングデータセットにおいて、有害な画像テキストペアの7,531を除去する。
堅牢な毒性検出パイプラインを実装するためのガイドラインを提供する。
我々の発見は、より責任と公平なマルチモーダルシステムを構築するために、ヘイトスピーチ、明示的なイメージ、ターゲットハラスメントなど、有害なコンテンツを積極的に識別し、フィルタリングする必要性を浮き彫りにした。
毒性を軽減したデータセットはオープンソースで、さらなる研究が可能である。
関連論文リスト
- Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs [1.7451266777840306]
大規模言語モデル(LLM)は、Common Crawl、C4、FineWebといった大規模なWebソースデータセットを事前トレーニングに活用して、さまざまな現実世界のアプリケーションに不可欠なものになっている。
不正なデータに対するLLMのトレーニングは、有害な行動の継続、誤報の拡散、社会的偏見の増幅といったリスクを負う。
本稿では,これらのデータセットにまたがる不適切なコンテンツを大規模に分析し,有害なWebページをその意図に基づいてトピカル・トキシックに分類する包括的分類法を提案する。
論文 参考訳(メタデータ) (2025-05-04T06:37:20Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。