論文の概要: Web(er) of Hate: A Survey on How Hate Speech Is Typed
- arxiv url: http://arxiv.org/abs/2506.16190v1
- Date: Thu, 19 Jun 2025 10:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.029463
- Title: Web(er) of Hate: A Survey on How Hate Speech Is Typed
- Title(参考訳): Web(er) of Hate: ヘイトスピーチのタイプに関する調査
- Authors: Luna Wang, Andrew Caines, Alice Hutchings,
- Abstract要約: 我々は、データセット作成における反射的アプローチを議論し、研究者はデータセット構築中に自身の価値判断を認め、透明性と方法論的厳密さを育むよう促す。
本稿では,これらの方法論の選択を多種多様なデータセットで批判的に検討し,共通テーマと実践,およびそれらのデータセット信頼性への影響について述べる。
- 参考スコア(独自算出の注目度): 3.357271554042637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The curation of hate speech datasets involves complex design decisions that balance competing priorities. This paper critically examines these methodological choices in a diverse range of datasets, highlighting common themes and practices, and their implications for dataset reliability. Drawing on Max Weber's notion of ideal types, we argue for a reflexive approach in dataset creation, urging researchers to acknowledge their own value judgments during dataset construction, fostering transparency and methodological rigour.
- Abstract(参考訳): ヘイトスピーチデータセットのキュレーションには、競合する優先順位のバランスをとる複雑な設計決定が含まれる。
本稿では,これらの方法論の選択を多種多様なデータセットで批判的に検討し,共通テーマと実践,およびそれらのデータセット信頼性への影響について述べる。
マックス・ウェーバーの理想型の概念に基づいて、我々はデータセット作成における反射的アプローチを論じ、研究者にデータセット構築中の価値判断を認め、透明性と方法論の厳密さを育むよう促した。
関連論文リスト
- Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - A Survey of Machine Learning Models and Datasets for the Multi-label Classification of Textual Hate Speech in English [3.216132991084434]
この研究は、英語におけるこの新たな研究の展望について、科学文献の体系的および包括的調査を行った最初のものである。
マルチラベル分類モデルのトレーニングに適した28のデータセットを簡潔に概説する。
不均衡なトレーニングデータ、クラウドソーシングプラットフォームへの依存、小規模でスパースなデータセット、方法論的アライメントの欠如を識別する。
論文 参考訳(メタデータ) (2025-04-11T15:16:31Z) - Improving Hate Speech Classification with Cross-Taxonomy Dataset Integration [0.0]
この研究は、単一のフレームワーク内で幅広い定義を検出することができる普遍的な分類法とヘイトスピーチ分類法を導入している。
我々のアプローチは、2つの広く使われているが異なる注釈付きデータセットを組み合わせることで検証される。
この研究は、ヘイトスピーチの検出を推進し、効率を向上し、コンテキスト間の広範な適用性を確保する上で、データセットと分類学の統合の可能性を強調している。
論文 参考訳(メタデータ) (2025-03-07T12:01:02Z) - Beyond Dataset Creation: Critical View of Annotation Variation and Bias Probing of a Dataset for Online Radical Content Detection [5.509174347606238]
我々は、ラディゼーションレベル、行動呼び出し、英語、フランス語、アラビア語で名前付きエンティティを注釈付けした、一般公開された多言語データセットを紹介します。
このデータセットは、コンテキスト情報を保持しながら個人のプライバシを保護するために匿名化される。
我々はアノテーションのプロセスを分析し、アノテータ間のバイアスと不一致を強調し、それらがモデル性能に与える影響を明らかにする。
論文 参考訳(メタデータ) (2024-12-16T13:03:43Z) - Position: Measure Dataset Diversity, Don't Just Claim It [8.551188808401294]
データセットキュレーターは、データセットを特徴付けるために、多様性、バイアス、品質といった、価値に富んだ用語を頻繁に使用します。
それらの流行にもかかわらず、これらの用語には明確な定義と検証が欠けている。
本研究は,135の画像データセットとテキストデータセットにまたがる「多様性」を分析し,この問題の意義を考察する。
論文 参考訳(メタデータ) (2024-07-11T05:13:27Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - On the Challenges of Building Datasets for Hate Speech Detection [0.0]
我々はまず,データ中心のレンズを用いてヘイトスピーチ検出を取り巻く問題を分析する。
次に、データ生成パイプラインを7つの広範囲にわたってカプセル化する、包括的なフレームワークの概要を示します。
論文 参考訳(メタデータ) (2023-09-06T11:15:47Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。