論文の概要: PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing
- arxiv url: http://arxiv.org/abs/2505.21184v1
- Date: Tue, 27 May 2025 13:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.676442
- Title: PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing
- Title(参考訳): PoisonSwarm: モデルクラウドソーシングによる普遍的有害情報合成
- Authors: Yu Yan, Sheng Sun, Zhifei Zheng, Ziji Hao, Teli Liu, Min Liu,
- Abstract要約: 本稿では,多種多様な有害データを生成するためにクラウドソーシングモデルを適用したPoisonSwarmを提案する。
それぞれのテンプレートを複数の意味単位に分解し、単位単位のトキフィケーションを実行する。
実験により、PoisonSwarmは有害データの異なるカテゴリを合成することで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 7.760708840164335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To construct responsible and secure AI applications, harmful information data is widely utilized for adversarial testing and the development of safeguards. Existing studies mainly leverage Large Language Models (LLMs) to synthesize data to obtain high-quality task datasets at scale, thereby avoiding costly human annotation. However, limited by the safety alignment mechanisms of LLMs, the synthesis of harmful data still faces challenges in generation reliability and content diversity. In this study, we propose a novel harmful information synthesis framework, PoisonSwarm, which applies the model crowdsourcing strategy to generate diverse harmful data while maintaining a high success rate. Specifically, we generate abundant benign data as the based templates in a counterfactual manner. Subsequently, we decompose each based template into multiple semantic units and perform unit-by-unit toxification and final refinement through dynamic model switching, thus ensuring the success of synthesis. Experimental results demonstrate that PoisonSwarm achieves state-of-the-art performance in synthesizing different categories of harmful data with high scalability and diversity.
- Abstract(参考訳): 責任あるセキュアなAIアプリケーションを構築するために、有害な情報データは敵の試験や安全装置の開発に広く利用されている。
既存の研究は主にLarge Language Models (LLM)を利用してデータを合成し、高品質なタスクデータセットを大規模に取得する。
しかし, LLMの安全アライメント機構によって制限された有害なデータの合成は, 生成信頼性とコンテンツ多様性の課題に直面している。
本研究では,新たな有害情報合成フレームワークであるPoisonSwarmを提案し,高い成功率を維持しつつ,多様な有害データを生成するために,モデルクラウドソーシング戦略を適用した。
具体的には,そのテンプレートとして豊富な良性データを生成する。
その後、各テンプレートを複数の意味単位に分解し、動的モデル切替による単位単位のトックス化と最終改良を行い、合成の成功を確実にする。
実験結果から,PoisonSwarmは,各種有害データのカテゴリを高いスケーラビリティと多様性で合成することで,最先端の性能を実現することが示された。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - ToxiLab: How Well Do Open-Source LLMs Generate Synthetic Toxicity Data? [29.23490658406256]
本研究では、有害なデータ合成のためのオープンソースのLCMの可能性について検討する。
幻覚と重複を最小限に抑えつつ,多種多様な高品質な有害データを生成する能力を評価する。
この結果から, 微調整されたオープンソースLCMは, 有毒なコンテンツ検出データセットを増強するための, スケーラブルで費用対効果の高いソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2024-11-18T00:21:14Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - Hybrid Deep Learning Model using SPCAGAN Augmentation for Insider Threat
Analysis [7.576808824987132]
ディープラーニングを用いた異常検出には包括的データが必要であるが、機密性に関する懸念からインサイダー脅威データは利用できない。
本研究では,不均一なデータソースから入力を受ける線形多様体学習に基づく生成逆ネットワークSPCAGANを提案する。
提案手法は誤差が低く,精度が高く,従来のモデルよりもはるかに優れた合成インサイダー脅威データを生成する。
論文 参考訳(メタデータ) (2022-03-06T02:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。