論文の概要: SynBullying: A Multi LLM Synthetic Conversational Dataset for Cyberbullying Detectio
- arxiv url: http://arxiv.org/abs/2511.11599v1
- Date: Thu, 30 Oct 2025 09:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.27087
- Title: SynBullying: A Multi LLM Synthetic Conversational Dataset for Cyberbullying Detectio
- Title(参考訳): SynBullying:Cyberbullying DetectioのためのマルチLLM合成会話データセット
- Authors: Arefeh Kazemi, Hamza Qadeer, Joachim Wagner, Hossein Hosseini, Sri Balaaji Natarajan Kalaivendan, Brian Davis,
- Abstract要約: SynBullyingは、サイバブリング(CB)の研究と検出のための合成多言語対話データセットである。
このデータセットは、(i)会話構造を提供し、孤立したポストではなく、多ターン交換をキャプチャし、(ii)文脈認識アノテーション、(ii)文脈、意図、言論のダイナミクスを考慮した会話フロー内で有害性を評価し、(iii)言語学的および行動学的分析のための様々なCBカテゴリをカバーする、きめ細かいラベル付けを提供する。
会話構造,語彙パターン,感情・毒性,役割ダイナミクス,害強度,CB型分布の5次元にわたってSynBullyingを評価した。
- 参考スコア(独自算出の注目度): 3.0515696049879195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce SynBullying, a synthetic multi-LLM conversational dataset for studying and detecting cyberbullying (CB). SynBullying provides a scalable and ethically safe alternative to human data collection by leveraging large language models (LLMs) to simulate realistic bullying interactions. The dataset offers (i) conversational structure, capturing multi-turn exchanges rather than isolated posts; (ii) context-aware annotations, where harmfulness is assessed within the conversational flow considering context, intent, and discourse dynamics; and (iii) fine-grained labeling, covering various CB categories for detailed linguistic and behavioral analysis. We evaluate SynBullying across five dimensions, including conversational structure, lexical patterns, sentiment/toxicity, role dynamics, harm intensity, and CB-type distribution. We further examine its utility by testing its performance as standalone training data and as an augmentation source for CB classification.
- Abstract(参考訳): 本稿では,SynBullyingについて紹介する。SynBullyingは,Cyberbullying(CB)を研究・検出するための合成多言語対話データセットである。
SynBullyingは、大規模言語モデル(LLM)を活用して、現実的ないじめインタラクションをシミュレートすることで、人間のデータ収集に代わるスケーラブルで倫理的に安全な代替手段を提供する。
データセットが提供する
一 単独のポストよりむしろ多ターンの交換を捕える会話構造
二 文脈、意図、言説のダイナミクスを考慮した会話の流れの中で有害性を評価する文脈認識アノテーション
(3)詳細な言語学的・行動学的分析のための様々なCBカテゴリーを網羅したきめ細かいラベル付け。
会話構造,語彙パターン,感情・毒性,役割ダイナミクス,害強度,CB型分布の5次元にわたってSynBullyingを評価した。
さらに,単体トレーニングデータとしての性能を検証し,CB分類のための拡張情報源としての有用性を検証した。
関連論文リスト
- A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。
既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。
本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T04:22:18Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。