論文の概要: A Dataset for the Detection of Dehumanizing Language
- arxiv url: http://arxiv.org/abs/2402.08764v1
- Date: Tue, 13 Feb 2024 19:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:58:24.455947
- Title: A Dataset for the Detection of Dehumanizing Language
- Title(参考訳): 非人間化言語検出のためのデータセット
- Authors: Paul Engelmann, Peter Brunsgaard Trolle, Christian Hardmeier
- Abstract要約: そこで本研究では,非人間化テキストの2つのデータセット,大規模な自動収集コーパス,より小さな手動注釈付きデータセットを提案する。
提案手法により,多種多様な非人間化データを扱えるようになり,さらなる探索分析と非人間化パターンの自動分類が可能となった。
- 参考スコア(独自算出の注目度): 3.2803526084968895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dehumanization is a mental process that enables the exclusion and ill
treatment of a group of people. In this paper, we present two data sets of
dehumanizing text, a large, automatically collected corpus and a smaller,
manually annotated data set. Both data sets include a combination of political
discourse and dialogue from movie subtitles. Our methods give us a broad and
varied amount of dehumanization data to work with, enabling further exploratory
analysis and automatic classification of dehumanization patterns. Both data
sets will be publicly released.
- Abstract(参考訳): 非人間化(dehumanization)とは、集団の排除と虐待を可能にする精神的なプロセスである。
本稿では,テキストを非人間化する2つのデータセット,大規模な自動収集コーパス,より小さな手動注釈付きデータセットを提案する。
どちらのデータセットも、政治談話と映画の字幕からの対話の組み合わせを含んでいる。
提案手法は,非人間化パターンの探索的解析と自動分類を可能にするため,多種多様な非人間化データを提供する。
どちらのデータセットも公開されます。
関連論文リスト
- Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering
Dehumanizing Language [11.946719280041789]
本稿では, GPT-4, GPT-3.5, LLAMA-2を含む最先端NLPモデルの性能評価を行った。
以上の結果から,これらのモデルが潜在的な可能性を示し,より広範なヘイトスピーチと非人間化言語を区別する精度が70%に達する一方で,バイアスも示していることがわかった。
論文 参考訳(メタデータ) (2024-02-21T13:57:36Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - When Crowd Meets Persona: Creating a Large-Scale Open-Domain Persona
Dialogue Corpus [13.051107304650627]
自然言語データセットの構築には、単語の意味論が微妙なテキストの変更や注釈付き概念の定義に弱いため、注意が必要である。
本研究では,大規模なオープンドメインペルソナ対話コーパスを作成する際に,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-04-01T16:10:36Z) - A Comparative Study on Textual Saliency of Styles from Eye Tracking,
Annotations, and Language Models [21.190423578990824]
我々は、スタイリスティックテキストの人間の処理のための視線追跡データセットである eyeStyliency を提示する。
収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。
視線追跡データはユニークですが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差しています。
論文 参考訳(メタデータ) (2022-12-19T21:50:36Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Boosting Semantic Human Matting with Coarse Annotations [66.8725980604434]
粗いアノテートされた人間のデータセットは、公開データセットから取得し、収集するのがずっと簡単です。
マットリファインメントネットワークは、統一マスクと入力画像とを取り込み、最終アルファマットを予測する。
論文 参考訳(メタデータ) (2020-04-10T09:11:02Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。