論文の概要: ToxiCraft: A Novel Framework for Synthetic Generation of Harmful Information
- arxiv url: http://arxiv.org/abs/2409.14740v1
- Date: Mon, 23 Sep 2024 06:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:12:18.904711
- Title: ToxiCraft: A Novel Framework for Synthetic Generation of Harmful Information
- Title(参考訳): ToxiCraft: 有害情報生成のための新しいフレームワーク
- Authors: Zheng Hui, Zhaoxiao Guo, Hang Zhao, Juanyong Duan, Congrui Huang,
- Abstract要約: Toxicraftは有害な情報のデータセットを合成するための新しいフレームワークである。
少量のシードデータだけで、我々のフレームワークは多種多様な合成データを生成することができるが、驚くほど現実的であり、有毒な情報の例である。
- 参考スコア(独自算出の注目度): 30.333357539780287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In different NLP tasks, detecting harmful content is crucial for online environments, especially with the growing influence of social media. However, previous research has two main issues: 1) a lack of data in low-resource settings, and 2) inconsistent definitions and criteria for judging harmful content, requiring classification models to be robust to spurious features and diverse. We propose Toxicraft, a novel framework for synthesizing datasets of harmful information to address these weaknesses. With only a small amount of seed data, our framework can generate a wide variety of synthetic, yet remarkably realistic, examples of toxic information. Experimentation across various datasets showcases a notable enhancement in detection model robustness and adaptability, surpassing or close to the gold labels. We release the generated data at Github upon acceptance.
- Abstract(参考訳): さまざまなNLPタスクにおいて、有害なコンテンツの検出はオンライン環境、特にソーシャルメディアの影響の高まりに不可欠である。
しかし、以前の研究には2つの問題があった。
1)低リソース設定におけるデータの欠如
2) 有害な内容の判断に矛盾する定義や基準は, 有害な特徴や多様さに対して, 分類モデルが堅牢であることが求められた。
Toxicraftは有害な情報のデータセットを合成してこれらの弱点に対処するための新しいフレームワークである。
少量のシードデータだけで、我々のフレームワークは多種多様な合成データを生成することができるが、驚くほど現実的であり、有毒な情報の例である。
さまざまなデータセットに対する実験では、検出モデルの堅牢性と適応性の顕著な向上が示され、ゴールドラベルを超越または近接している。
生成されたデータはGithubで受理時にリリースします。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - ToVo: Toxicity Taxonomy via Voting [25.22398575368979]
投票と連鎖プロセスを統合したデータセット作成機構を提案する。
本手法は,各サンプルの分類基準を多種多様に設定する。
提案したメカニズムによって生成されたデータセットを使用してモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-21T02:35:30Z) - Generation of synthetic data using breast cancer dataset and classification with resnet18 [0.0]
合成データは、実際のデータの制約、ラベル付きデータの収集のコスト、プライバシとセキュリティの問題など、さまざまな理由から必要とされる。
GAN(Generative Adversarial Networks)と呼ばれるディープラーニングモデルは,合成データを生成する目的で開発された。
本研究では,乳腺病理組織学的データセットを用いて悪性および陰性にラベル付けされた合成パッチ画像を生成する。
論文 参考訳(メタデータ) (2024-05-25T15:53:27Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Image change detection with only a few samples [7.5780621370948635]
画像変化検出タスクの最大の障害は、さまざまな場面をカバーする大きな注釈付きデータセットの欠如である。
本稿では,合成データを生成するための単純な画像処理手法を提案する。
次に、対象検出に基づく初期の融合ネットワークを設計し、シアムニューラルネットを上回ります。
論文 参考訳(メタデータ) (2023-11-07T07:01:35Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Less is More: Learning from Synthetic Data with Fine-grained Attributes
for Person Re-Identification [16.107661617441327]
人物の再識別(re-ID)は、公共のセキュリティやビデオ監視などのアプリケーションにおいて重要な役割を果たす。
近年、合成データから学ぶことは、学術と公衆の目の両方から注目を集めている。
我々は,微粒な属性分布を持つファインGPRという大規模合成人データセットを構築し,ラベル付けする。
論文 参考訳(メタデータ) (2021-09-22T03:12:32Z) - Attribute analysis with synthetic dataset for person re-identification [15.388939933009668]
人物の再識別(re-ID)は、公共のセキュリティやビデオ監視などのアプリケーションにおいて重要な役割を果たす。
近年,合成データエンジンの普及に寄与する合成データからの学習は,目覚ましい成果を上げている。
既存の合成データセットは、小さなサイズと多様性の欠如があり、現実世界のシナリオにおける人物のre-IDの開発を妨げる。
論文 参考訳(メタデータ) (2020-06-12T12:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。