論文の概要: Mapping Toxic Comments Across Demographics: A Dataset from German Public Broadcasting
- arxiv url: http://arxiv.org/abs/2508.21084v1
- Date: Tue, 26 Aug 2025 16:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.80988
- Title: Mapping Toxic Comments Across Demographics: A Dataset from German Public Broadcasting
- Title(参考訳): トキシックなコメントをデモグラフィック全体にわたってマッピングする - ドイツ公共放送のデータセット
- Authors: Jan Fillies, Michael Peter Hoffmann, Rebecca Reichel, Roman Salzwedel, Sven Bodemer, Adrian Paschke,
- Abstract要約: このデータセットには、Instagram、TikTok、YouTubeからの3,024人の注釈付きコメントと30,024人の匿名コメントが含まれている。
関連性を確保するために、コメントは事前に定義された有毒なキーワードを使用して統合され、16.7%が問題としてラベル付けされた。
このデータセットは、年齢による有毒な音声パターンの違いを明らかにし、若いユーザーは表現力のある言語を好む。
- 参考スコア(独自算出の注目度): 0.8466401378239364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A lack of demographic context in existing toxic speech datasets limits our understanding of how different age groups communicate online. In collaboration with funk, a German public service content network, this research introduces the first large-scale German dataset annotated for toxicity and enriched with platform-provided age estimates. The dataset includes 3,024 human-annotated and 30,024 LLM-annotated anonymized comments from Instagram, TikTok, and YouTube. To ensure relevance, comments were consolidated using predefined toxic keywords, resulting in 16.7\% labeled as problematic. The annotation pipeline combined human expertise with state-of-the-art language models, identifying key categories such as insults, disinformation, and criticism of broadcasting fees. The dataset reveals age-based differences in toxic speech patterns, with younger users favoring expressive language and older users more often engaging in disinformation and devaluation. This resource provides new opportunities for studying linguistic variation across demographics and supports the development of more equitable and age-aware content moderation systems.
- Abstract(参考訳): 既存の有毒な音声データセットにおける人口統計学的文脈の欠如は、年齢層の違いによるオンラインコミュニケーションの理解を制限する。
この研究は、ドイツの公共サービスコンテンツネットワークであるfukと共同で、毒性に注釈を付け、プラットフォームが提供する年齢推定値に富んだ最初の大規模ドイツのデータセットを紹介した。
データセットには、Instagram、TikTok、YouTubeからの3,024人の人間アノテーションと30,024人のLDMアノテーションによる匿名コメントが含まれている。
関連性を確保するために、コメントは事前に定義された有毒なキーワードを使用して統合され、16.7\%が問題としてラベル付けされた。
アノテーションパイプラインは、人間の専門知識と最先端の言語モデルを組み合わせて、侮辱、偽情報、放送料金に対する批判といった重要なカテゴリを特定した。
このデータセットは、年齢による有毒な音声パターンの違いを明らかにし、若いユーザーは表現力のある言語を好む。
このリソースは、人口統計学にまたがる言語変化を研究する新たな機会を提供し、より公平で年齢に応じたコンテンツモデレーションシステムの開発を支援する。
関連論文リスト
- Assessing the Level of Toxicity Against Distinct Groups in Bangla Social Media Comments: A Comprehensive Investigation [0.0]
本研究は, トランスジェンダー, 先住民, 移民の3つの特定のグループを対象として, ベンガル語における有毒なコメントを同定することに焦点を当てた。
この方法論は、データセット、手動のアノテーションの作成と、Bangla-BERT、bangla-bert-base、distil-BERT、Bert-base-multilingual-casedといったトレーニング済みのトランスフォーマーモデルの使用を含む。
実験の結果、Bangla-BERTは代替モデルを超え、F1スコアは0.8903に達した。
論文 参考訳(メタデータ) (2024-09-25T17:48:59Z) - The Evolution of Language in Social Media Comments [37.69303106863453]
本研究では,34年間のユーザコメントの言語的特徴について検討し,その複雑さと時間的変化に着目した。
8つのプラットフォームとトピックから約3億の英文コメントのデータセットを利用する。
本研究は, テキスト長のほぼ普遍的な減少, 語彙の豊かさの低下, 反復性の低下を特徴とするソーシャルメディアプラットフォームとトピック間の複雑性パターンの整合性を明らかにした。
論文 参考訳(メタデータ) (2024-06-17T12:03:30Z) - Developing Linguistic Patterns to Mitigate Inherent Human Bias in
Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。
このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文 参考訳(メタデータ) (2023-12-04T10:20:36Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Toxic Language Detection in Social Media for Brazilian Portuguese: New
Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。
より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文 参考訳(メタデータ) (2020-10-09T13:05:19Z) - Multilingual Twitter Corpus and Baselines for Evaluating Demographic
Bias in Hate Speech Recognition [46.57105755981092]
ヘイトスピーチ検出のための多言語Twitterコーパスを公開している。
コーパスは英語、イタリア語、ポーランド語、ポルトガル語、スペイン語の5つの言語をカバーしている。
我々は、クラウドソーシングプラットフォームを用いて、推定された人口統計ラベルを評価した。
論文 参考訳(メタデータ) (2020-02-24T16:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。