論文の概要: Six Attributes of Unhealthy Conversation
- arxiv url: http://arxiv.org/abs/2010.07410v1
- Date: Wed, 14 Oct 2020 21:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:55:46.637749
- Title: Six Attributes of Unhealthy Conversation
- Title(参考訳): 不健康会話の6つの属性
- Authors: Ilan Price, Jordan Gifford-Moore, Jory Fleming, Saul Musker, Maayan
Roichman, Guillaume Sylvain, Nithum Thain, Lucas Dixon, Jeffrey Sorensen
- Abstract要約: クラウドワーカーによってラベル付けされた約44000のコメントのデータセットを新たに提示する。
それぞれのコメントは「健康」または「不健康」とラベル付けされ、6つの潜在的「不健康」サブ属性が存在するためのバイナリラベルが付与される。
- 参考スコア(独自算出の注目度): 8.130739369606822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a new dataset of approximately 44000 comments labeled by
crowdworkers. Each comment is labelled as either 'healthy' or 'unhealthy', in
addition to binary labels for the presence of six potentially 'unhealthy'
sub-attributes: (1) hostile; (2) antagonistic, insulting, provocative or
trolling; (3) dismissive; (4) condescending or patronising; (5) sarcastic;
and/or (6) an unfair generalisation. Each label also has an associated
confidence score. We argue that there is a need for datasets which enable
research based on a broad notion of 'unhealthy online conversation'. We build
this typology to encompass a substantial proportion of the individual comments
which contribute to unhealthy online conversation. For some of these
attributes, this is the first publicly available dataset of this scale. We
explore the quality of the dataset, present some summary statistics and initial
models to illustrate the utility of this data, and highlight limitations and
directions for further research.
- Abstract(参考訳): クラウドワーカーによってラベル付けされた約44000のコメントのデータセットを新たに提示する。
それぞれのコメントは、(1)敵対的、侮辱的、挑発的、またはトロール的、(3)否定的、(4)屈辱的、またはパトロン的、(5)皮肉的、または(6)不公平な一般化という、6つの「不健康」なサブ属性が存在するためのバイナリラベルに加えて、「健康的」または「不健康」とラベル付けされる。
各レーベルは、関連する信頼スコアも持っている。
我々は、「不健全なオンライン会話」という広い概念に基づく研究を可能にするデータセットの必要性を論じる。
このタイプは、不健康なオンライン会話に寄与する個々のコメントのかなりの割合を包含する。
これらの属性のいくつかについては、このスケールで公開された最初のデータセットである。
データセットの品質を調査し、データの有用性を説明するためにいくつかの要約統計と初期モデルを示し、さらなる研究のための限界と方向を強調する。
関連論文リスト
- Enhancing Suicide Risk Detection on Social Media through Semi-Supervised Deep Label Smoothing [15.1082838217225]
支援を受ける人への障壁には、社会的汚職やメンタルヘルスへのアクセスの欠如がある。
ソーシャルメディアの人気が高まり、人々はRedditなどのオンラインフォーラムで自分の感情を表現し、支援を求めるようになった。
ソーシャルメディアの投稿は、テキストの分類を用いて分類することができ、専門家の助けを借りて人々を結びつけるのに役立つ。
これらのシステムは、精神状態の分類において固有の不確実性を考慮していない。
論文 参考訳(メタデータ) (2024-05-09T14:25:25Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z) - Detecting Unintended Social Bias in Toxic Language Datasets [32.724030288421474]
本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。
データセットには、5つの異なるバイアスカテゴリ、viz.、性、人種/民族性、宗教、政治的、LGBTQに注釈付けされたインスタンスが含まれている。
得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。
論文 参考訳(メタデータ) (2022-10-21T06:50:12Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Detecting Inappropriate Messages on Sensitive Topics that Could Harm a
Company's Reputation [64.22895450493729]
カメや釣りの穏やかな議論は、政治や性的マイノリティの議論よりも不適切な有毒な対話を後押しします。
我々は,不適切で有害なメッセージを生み出す可能性のある,センシティブなトピックのセットを定義し,データセットの収集とラベル付けの方法論を記述した。
論文 参考訳(メタデータ) (2021-03-09T10:50:30Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions
Attributes [4.254099382808598]
本稿は、Twitterプラットフォーム上でのCOVID-19パンデミックに対する人々の言論と対応に関する大規模なグローバルデータセットについて述べる。
われわれは2億2200万件以上のTwitter投稿を「コロナ」「武漢」「nCov」「コビッド」という4つのキーワードを使って収集、処理した。
この論文は、コミュニケーション、心理学、公衆衛生、経済学、疫学におけるデータセットの使用に関する議論から締めくくっている。
論文 参考訳(メタデータ) (2020-07-14T10:30:47Z) - Toxicity Detection: Does Context Really Matter? [22.083682201142242]
私たちは、投稿の有害性に対する認識を増幅または緩和できる状況があることに気付きました。
意外なことに、文脈が毒性分類器の性能を実際に改善する証拠も見つからない。
これは、コンテキストにアノテートされたコメントのより大きなデータセットの必要性を示している。
論文 参考訳(メタデータ) (2020-06-01T15:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。