論文の概要: Beyond Dataset Creation: Critical View of Annotation Variation and Bias Probing of a Dataset for Online Radical Content Detection
- arxiv url: http://arxiv.org/abs/2412.11745v1
- Date: Mon, 16 Dec 2024 13:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:30.933605
- Title: Beyond Dataset Creation: Critical View of Annotation Variation and Bias Probing of a Dataset for Online Radical Content Detection
- Title(参考訳): データセット作成を超えて:オンラインラジカルコンテンツ検出用データセットの注釈変分とバイアス探索の批判的視点
- Authors: Arij Riabi, Virginie Mouilleron, Menel Mahamdi, Wissam Antoun, Djamé Seddah,
- Abstract要約: 我々は、ラディゼーションレベル、行動呼び出し、英語、フランス語、アラビア語で名前付きエンティティを注釈付けした、一般公開された多言語データセットを紹介します。
このデータセットは、コンテキスト情報を保持しながら個人のプライバシを保護するために匿名化される。
我々はアノテーションのプロセスを分析し、アノテータ間のバイアスと不一致を強調し、それらがモデル性能に与える影響を明らかにする。
- 参考スコア(独自算出の注目度): 5.509174347606238
- License:
- Abstract: The proliferation of radical content on online platforms poses significant risks, including inciting violence and spreading extremist ideologies. Despite ongoing research, existing datasets and models often fail to address the complexities of multilingual and diverse data. To bridge this gap, we introduce a publicly available multilingual dataset annotated with radicalization levels, calls for action, and named entities in English, French, and Arabic. This dataset is pseudonymized to protect individual privacy while preserving contextual information. Beyond presenting our \href{https://gitlab.inria.fr/ariabi/counter-dataset-public}{freely available dataset}, we analyze the annotation process, highlighting biases and disagreements among annotators and their implications for model performance. Additionally, we use synthetic data to investigate the influence of socio-demographic traits on annotation patterns and model predictions. Our work offers a comprehensive examination of the challenges and opportunities in building robust datasets for radical content detection, emphasizing the importance of fairness and transparency in model development.
- Abstract(参考訳): オンラインプラットフォームにおける急進的コンテンツの普及は、暴力の扇動や過激主義のイデオロギーの普及など、重大なリスクをもたらす。
進行中の研究にもかかわらず、既存のデータセットやモデルは、多言語および多様なデータの複雑さに対処できないことが多い。
このギャップを埋めるために、過激化レベル、行動要求、英語、フランス語、アラビア語で名前付きエンティティを付加した、公開されている多言語データセットを導入します。
このデータセットは、コンテキスト情報を保持しながら個人のプライバシを保護するために匿名化される。
アノテーションプロセスを分析し、アノテータ間のバイアスや不一致、モデルパフォーマンスへの影響を強調します。
さらに、合成データを用いて、アノテーションパターンやモデル予測に対する社会デデノグラフィー特性の影響を調査する。
我々の研究は、過激なコンテンツ検出のための堅牢なデータセットを構築する上での課題と機会を包括的に検証し、モデル開発における公正性と透明性の重要性を強調します。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Position: Measure Dataset Diversity, Don't Just Claim It [8.551188808401294]
データセットキュレーターは、データセットを特徴付けるために、多様性、バイアス、品質といった、価値に富んだ用語を頻繁に使用します。
それらの流行にもかかわらず、これらの用語には明確な定義と検証が欠けている。
本研究は,135の画像データセットとテキストデータセットにまたがる「多様性」を分析し,この問題の意義を考察する。
論文 参考訳(メタデータ) (2024-07-11T05:13:27Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Investigating User Radicalization: A Novel Dataset for Identifying
Fine-Grained Temporal Shifts in Opinion [7.028604573959653]
本稿では,微妙な意見揺らぎをモデル化し,微粒な姿勢を検出するための,革新的な注釈付きデータセットを提案する。
データセットには、時間とともに、および会話スレッド全体で、十分な量のスタンスポラリティとユーザ毎の強度ラベルが含まれている。
すべての投稿は非専門家によって注釈付けされ、データの大部分は専門家によって注釈付けされている。
論文 参考訳(メタデータ) (2022-04-16T09:31:25Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。