論文の概要: Synthetic vs. Gold: The Role of LLM-Generated Labels and Data in Cyberbullying Detection
- arxiv url: http://arxiv.org/abs/2502.15860v2
- Date: Sat, 05 Apr 2025 09:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 16:00:10.921921
- Title: Synthetic vs. Gold: The Role of LLM-Generated Labels and Data in Cyberbullying Detection
- Title(参考訳): 合成対金:LCM生成ラベルとサイバーバブル検出データの役割
- Authors: Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Brian Davis,
- Abstract要約: CB(Cyberbullying)は、特に子供に脅威を与える。
このようなシステムの開発の進展は、大規模ラベル付きデータセットの不足によって妨げられています。
合成データとラベルを生成するために,Large Language Models (LLMs)を提案する。
- 参考スコア(独自算出の注目度): 3.476605249933508
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cyberbullying (CB) presents a pressing threat, especially to children, underscoring the urgent need for robust detection systems to ensure online safety. However, progress in developing such systems is hindered by the scarcity of large, labeled datasets that are specifically tailored for specialized tasks and the target age groups. Creating these datasets relies heavily on human annotation, which not only strains resources but also raises significant ethical and legal concerns due to annotators' exposure to harmful content, notwithstanding the acquisition of this type of data from vulnerable populations such as children. In this paper, we address these challenges by leveraging Large Language Models (LLMs) to generate synthetic data and labels. Our experiments demonstrate that synthetic data enables BERT-based CB classifiers to achieve performance close to that of those trained on fully authentic datasets (75.8% vs. 81.5% accuracy). Additionally, LLMs can effectively label authentic yet unlabeled data, allowing BERT classifiers to attain a comparable performance level (79.1% vs. 81.5% accuracy). These results highlight the potential of LLMs as a scalable, ethical, and cost-effective solution for generating data for CB detection.
- Abstract(参考訳): CB(Cyberbullying)は、特に子供に対して、オンラインの安全性を確保するための堅牢な検知システムの必要性を緊急に強調する脅威を提示している。
しかし、そのようなシステムの開発の進展は、特定のタスクや対象年齢グループに適したラベル付きデータセットの不足によって妨げられている。
これらのデータセットの作成は、リソースを歪ませるだけでなく、アノテーターが有害なコンテンツに触れることによる倫理的、法的懸念も大きく高めている。
本稿では,Large Language Models (LLM) を利用して合成データとラベルを生成することで,これらの課題に対処する。
実験により, BERTベースのCB分類器は, 完全正当性データセット(精度81.5%に対して75.8%)で訓練されたものに近い性能が得られることを示した。
加えて、LLMは認証されていないがラベル付けされていないデータを効果的にラベル付けすることができ、BERT分類器は同等のパフォーマンスレベル(79.1%対81.5%の精度)を達成することができる。
これらの結果は、CB検出のためのデータを生成するためのスケーラブルで倫理的で費用対効果の高いソリューションとしてLLMの可能性を浮き彫りにしている。
関連論文リスト
- The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、事前訓練された大規模言語モデル(LLM)を微調整するために使用されるデータをターゲットにした会員推論攻撃(MIA)を設計する。
このようなデータに基づくMIAは、ランダムな推測よりもはるかに優れていることを示し、これは、合成データがトレーニングデータに関する情報を漏洩することを意味する。
この問題に対処するために、自動回帰モデルの力学を活用して、非分配プレフィックスと高パープレキサフィックスを備えたカナリアを設計する。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - Robust Semi-Supervised Learning in Open Environments [51.741549825533816]
半教師付き学習(SSL)は、ラベルが不足しているときにラベルのないデータを活用することで、パフォーマンスを向上させることを目的としている。
不整合なラベル付きデータを利用すると、大幅な性能劣化が発生することが報告されている。
本稿では,SSLにおけるラベル,特徴,データ分散の不整合に関する技術に焦点をあて,この研究の展開を簡潔に紹介する。
論文 参考訳(メタデータ) (2024-12-24T08:13:01Z) - Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs [1.6575279044457722]
本稿では,セミスーパービジョンテキスト分類タスクの性能向上を目的としたクラスタリング,ラベル付け,拡張フレームワークを提案する。
従来のSSTCアプローチとは異なり、このフレームワークはクラスタリングを使用してラベリングの代表的な"ランドマーク"を選択する。
実験の結果,100以上のカテゴリを含む複雑な文書分類シナリオにおいても,Reutersデータセットでは95.41%,Web of Scienceデータセットでは82.43%の最先端の精度を達成した。
論文 参考訳(メタデータ) (2024-11-09T13:17:39Z) - Data Quality Issues in Vulnerability Detection Datasets [1.6114012813668932]
脆弱性検出は、サイバーセキュリティのためのソフトウェアの潜在的な弱点を特定する上で、極めて難しいタスクである。
深層学習(DL)は検出プロセスの自動化に大きな進歩を遂げた。
この目的のためにDLモデルをトレーニングするために、多くのデータセットが作成されています。
しかし、これらのデータセットは、DLモデルの検出精度の低下につながるいくつかの問題に悩まされる。
論文 参考訳(メタデータ) (2024-10-08T13:31:29Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions [1.1624569521079426]
オンライン政治議論において、合成データを利用して姿勢検出エージェントを訓練し、改善する方法を示す。
我々はMistral-7Bモデルにより、特定の議論のための合成データを生成する。
本研究は,合成データと非ラベルデータセットの最も情報性の高いサンプルを組み合わせることによる影響について検討する。
論文 参考訳(メタデータ) (2024-06-18T10:36:21Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Enhancing IoT Security with CNN and LSTM-Based Intrusion Detection Systems [0.23408308015481666]
提案モデルは,畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)ディープラーニング(DL)モデルを組み合わせて構成する。
この融合により、IoTトラフィックをバイナリカテゴリ、良性、悪意のあるアクティビティに検出し、分類することが可能になる。
提案モデルの精度は98.42%,最小損失は0.0275である。
論文 参考訳(メタデータ) (2024-05-28T22:12:15Z) - On the Equivalency, Substitutability, and Flexibility of Synthetic Data [9.459709213597707]
本研究では,合成データと実世界のデータとの等価性,実データに対する合成データの置換可能性,合成データ生成装置の柔軟性について検討する。
以上の結果から, 合成データによりモデル性能が向上するだけでなく, 実データへの置換性も向上し, 性能損失の60%から80%が置換可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-24T17:21:32Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Synthetic-To-Real Video Person Re-ID [57.937189569211505]
人物再識別(Re-ID)は重要な課題であり、公衆の安全と情報法医学に重要な応用がある。
本稿では、Re-IDの新規かつ挑戦的な設定、すなわちドメイン間ビデオベースの人物Re-IDについて検討する。
我々は、テストのためのトレーニングや実世界のビデオのソースドメインとして、合成ビデオデータセットを使用します。
論文 参考訳(メタデータ) (2024-02-03T10:19:21Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - IDTraffickers: An Authorship Attribution Dataset to link and connect
Potential Human-Trafficking Operations on Text Escort Advertisements [8.479659578608235]
人身売買(Human trafficking、HT)は、脆弱な個人に影響を及ぼす世界的な問題であり、基本的人権を侵害している。
87,595のテキスト広告と5,244のベンダーラベルからなる広範なデータセットであるIDTraffickersを紹介します。
閉集合分類環境でのマクロF1スコア0.8656のDeCLUTR小モデルを訓練する。
論文 参考訳(メタデータ) (2023-10-09T07:43:57Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Synthetic flow-based cryptomining attack generation through Generative
Adversarial Networks [1.2575897140677708]
マシンラーニングコンポーネントのパフォーマンス向上には,フローベースのデータセットが不可欠だ。
データプライバシは,このようなネットワークデータを処理する上で,強い要件としてますます現れています。
本稿では,GANが生成する合成データの質を測定するための新しい決定論的手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T17:27:55Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。