論文の概要: Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs
- arxiv url: http://arxiv.org/abs/2505.02009v2
- Date: Wed, 21 May 2025 06:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.419328
- Title: Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs
- Title(参考訳): Safer Pretrainingに向けて: 応答性LLMのためのWebスケールデータセットにおける有害コンテンツの解析とフィルタリング
- Authors: Sai Krishna Mendu, Harish Yenala, Aditi Gulati, Shanu Kumar, Parag Agrawal,
- Abstract要約: 大規模言語モデル(LLM)は、Common Crawl、C4、FineWebといった大規模なWebソースデータセットを事前トレーニングに活用して、さまざまな現実世界のアプリケーションに不可欠なものになっている。
このようなフィルタリングされていないデータに対するLCMの訓練は、有害な行動の継続、誤報の拡散、社会的偏見の増幅といったリスクを負う。
本稿では,これらのデータセットにまたがる不適切なコンテンツを大規模に分析し,有害なWebページをその意図に基づいてトピカル・トキシックに分類する包括的分類法を提案する。
- 参考スコア(独自算出の注目度): 1.7451266777840306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become integral to various real-world applications, leveraging massive, web-sourced datasets like Common Crawl, C4, and FineWeb for pretraining. While these datasets provide linguistic data essential for high-quality natural language generation, they often contain harmful content, such as hate speech, misinformation, and biased narratives. Training LLMs on such unfiltered data risks perpetuating toxic behaviors, spreading misinformation, and amplifying societal biases which can undermine trust in LLM-driven applications and raise ethical concerns about their use. This paper presents a large-scale analysis of inappropriate content across these datasets, offering a comprehensive taxonomy that categorizes harmful webpages into Topical and Toxic based on their intent. We also introduce a prompt evaluation dataset, a high-accuracy Topical and Toxic Prompt (TTP), and a transformer-based model (HarmFormer) for harmful content filtering. Additionally, we create a new multi-harm open-ended toxicity benchmark (HAVOC) and provide crucial insights into how models respond to adversarial toxic inputs. We share TTP, TTP-Eval, HAVOC and a sample of C4 inferenced on HarmFormer. Our work offers insights into ensuring safer LLM pretraining and serves as a resource for Responsible AI (RAI) compliance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Common Crawl、C4、FineWebといった大規模なWebソースデータセットを事前トレーニングに活用して、さまざまな現実世界のアプリケーションに不可欠なものになっている。
これらのデータセットは、高品質な自然言語生成に必要な言語データを提供するが、ヘイトスピーチ、誤報、偏見のある物語などの有害な内容を含んでいることが多い。
このような不正なデータに対するLCMの訓練は、有害な行動の継続、誤報の拡散、LLM駆動のアプリケーションへの信頼を損なう社会的偏見の増幅、およびそれらの使用に対する倫理的懸念を高める。
本稿では,これらのデータセットにまたがる不適切なコンテンツを大規模に分析し,有害なWebページをその意図に基づいてトピカル・トキシックに分類する包括的分類法を提案する。
また, 有害なコンテンツフィルタリングのためのトランスフォーマーモデル (HarmFormer) も導入した。
さらに、我々は、新しいマルチハームオープンエンド毒性ベンチマーク(HAVOC)を作成し、モデルが敵対的な有害な入力にどのように反応するかについて重要な洞察を提供する。
私たちは、TTP、TTP-Eval、HAVOC、およびHarmFormerで推論されたC4のサンプルを共有します。
我々の研究は、より安全なLCM事前トレーニングの確保に関する洞察を提供し、責任あるAI(RAI)コンプライアンスのリソースとして役立ちます。
関連論文リスト
- LLM-based Semantic Augmentation for Harmful Content Detection [5.954202581988127]
本稿では,大規模言語モデルに対して,雑音の多いテキストをきれいにし,文脈に富んだ説明を提供するアプローチを提案する。
我々はSemEval 2024マルチラベルPersuasive Memeデータセットを評価し、Google Jigsawの有毒なコメントとFacebookの憎しみのあるミームデータセットで検証した。
その結果, 教師付きモデルと比較して, ゼロショットLLM分類はこれらの高文脈タスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2025-04-22T02:59:03Z) - ToxiLab: How Well Do Open-Source LLMs Generate Synthetic Toxicity Data? [29.23490658406256]
本研究では、有害なデータ合成のためのオープンソースのLCMの可能性について検討する。
幻覚と重複を最小限に抑えつつ,多種多様な高品質な有害データを生成する能力を評価する。
この結果から, 微調整されたオープンソースLCMは, 有毒なコンテンツ検出データセットを増強するための, スケーラブルで費用対効果の高いソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2024-11-18T00:21:14Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。
膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。
本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文 参考訳(メタデータ) (2024-05-17T09:42:59Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。