論文の概要: Synthetic vs. Gold: The Role of LLM-Generated Labels and Data in Cyberbullying Detection
- arxiv url: http://arxiv.org/abs/2502.15860v1
- Date: Fri, 21 Feb 2025 10:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:20.340556
- Title: Synthetic vs. Gold: The Role of LLM-Generated Labels and Data in Cyberbullying Detection
- Title(参考訳): 合成対金:LCM生成ラベルとサイバーバブル検出データの役割
- Authors: Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Brian Davis,
- Abstract要約: 我々は, 有害検出のための分類器を訓練する基礎として, 合成サイバー膨大化データが存在することを見出した。
結果は、サイバーバブル検出におけるスケーラブルで倫理的に実行可能な代替手段として、合成データの生存可能性を強調している。
- 参考スコア(独自算出の注目度): 3.476605249933508
- License:
- Abstract: This study investigates the role of LLM-generated synthetic data in cyberbullying detection. We conduct a series of experiments where we replace some or all of the authentic data with synthetic data, or augment the authentic data with synthetic data. We find that synthetic cyberbullying data can be the basis for training a classifier for harm detection that reaches performance close to that of a classifier trained with authentic data. Combining authentic with synthetic data shows improvements over the baseline of training on authentic data alone for the test data for all three LLMs tried. These results highlight the viability of synthetic data as a scalable, ethically viable alternative in cyberbullying detection while emphasizing the critical impact of LLM selection on performance outcomes.
- Abstract(参考訳): 本研究は,LLM生成合成データによるサイバーバブル検出における役割について検討する。
実験では、認証データのいくつかまたは全てを合成データで置き換えるか、あるいは合成データで認証データを増強する。
我々は, 正当性のあるデータで訓練された分類器に近い性能に到達した有害検出のための分類器を訓練する上で, 合成サイバーブロッキングデータが基礎となることを見出した。
認証データと合成データを組み合わせることで、3つのLLMで試されたテストデータに対して、認証データのみのトレーニングのベースラインの改善が示される。
これらの結果は、LCM選択が性能に与える影響を強調しつつ、サイバーバブル検出におけるスケーラブルで倫理的に実行可能な代替手段として、合成データの生存性を強調している。
関連論文リスト
- Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions [1.1624569521079426]
オンライン政治議論において、合成データを利用して姿勢検出エージェントを訓練し、改善する方法を示す。
我々はMistral-7Bモデルにより、特定の議論のための合成データを生成する。
本研究は,合成データと非ラベルデータセットの最も情報性の高いサンプルを組み合わせることによる影響について検討する。
論文 参考訳(メタデータ) (2024-06-18T10:36:21Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - On the Equivalency, Substitutability, and Flexibility of Synthetic Data [9.459709213597707]
本研究では,合成データと実世界のデータとの等価性,実データに対する合成データの置換可能性,合成データ生成装置の柔軟性について検討する。
以上の結果から, 合成データによりモデル性能が向上するだけでなく, 実データへの置換性も向上し, 性能損失の60%から80%が置換可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-24T17:21:32Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Synthetic-To-Real Video Person Re-ID [57.937189569211505]
人物再識別(Re-ID)は重要な課題であり、公衆の安全と情報法医学に重要な応用がある。
本稿では、Re-IDの新規かつ挑戦的な設定、すなわちドメイン間ビデオベースの人物Re-IDについて検討する。
我々は、テストのためのトレーニングや実世界のビデオのソースドメインとして、合成ビデオデータセットを使用します。
論文 参考訳(メタデータ) (2024-02-03T10:19:21Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Synthetic flow-based cryptomining attack generation through Generative
Adversarial Networks [1.2575897140677708]
マシンラーニングコンポーネントのパフォーマンス向上には,フローベースのデータセットが不可欠だ。
データプライバシは,このようなネットワークデータを処理する上で,強い要件としてますます現れています。
本稿では,GANが生成する合成データの質を測定するための新しい決定論的手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T17:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。