Fugu-MT 論文翻訳(概要): Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating Toxic Text Datasets

論文の概要: Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating Toxic Text Datasets

arxiv url: http://arxiv.org/abs/2112.03529v1
Date: Tue, 7 Dec 2021 06:58:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-08 14:25:56.288556
Title: Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating Toxic Text Datasets
Title（参考訳）: 真実、誰の真実? --トックステキストデータセットの注釈付けによる課題の検討
Authors: Kofi Arhin, Ioana Baldini, Dennis Wei, Karthikeyan Natesan Ramamurthy, Moninder Singh
Abstract要約: 本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。 3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
参考スコア（独自算出の注目度）: 26.486492641924226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of machine learning (ML)-based language models (LMs) to monitor content online is on the rise. For toxic text identification, task-specific fine-tuning of these models are performed using datasets labeled by annotators who provide ground-truth labels in an effort to distinguish between offensive and normal content. These projects have led to the development, improvement, and expansion of large datasets over time, and have contributed immensely to research on natural language. Despite the achievements, existing evidence suggests that ML models built on these datasets do not always result in desirable outcomes. Therefore, using a design science research (DSR) approach, this study examines selected toxic text datasets with the goal of shedding light on some of the inherent issues and contributing to discussions on navigating these challenges for existing and future projects. To achieve the goal of the study, we re-annotate samples from three toxic text datasets and find that a multi-label approach to annotating toxic text samples can help to improve dataset quality. While this approach may not improve the traditional metric of inter-annotator agreement, it may better capture dependence on context and diversity in annotators. We discuss the implications of these results for both theory and practice.
Abstract（参考訳）: オンラインでコンテンツを監視するための機械学習(ML)ベースの言語モデル(LM)の利用が増えている。有害なテキスト識別のために、これらのモデルのタスク固有の微調整は、アノテータによってラベル付けされたデータセットを用いて行われる。これらのプロジェクトは、時間をかけて大規模なデータセットの開発、改善、拡張につながり、自然言語の研究に大きく貢献した。これらの成果にもかかわらず、既存の証拠は、これらのデータセット上に構築されたMLモデルが必ずしも望ましい結果をもたらすとは限らないことを示唆している。そこで本研究では, 設計科学研究(dsr) の手法を用いて, 有毒なテキストデータセットを探索し, 問題点を解明し, 既存の課題と今後の課題の解決に寄与する。本研究の目的を達成するために, 3つの有毒テキストデータセットからサンプルを再注釈し, 有毒テキストを注釈するマルチラベルアプローチがデータセットの品質向上に寄与することを示す。このアプローチはアノテータ間の合意の伝統的な基準を改善するものではないかもしれないが、アノテータの文脈や多様性への依存をよりよく捉えることができる。本稿では,これらの結果が理論と実践の両方に与える影響について論じる。

関連論文リスト

Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Datasets for Fairness in Language Models: An In-Depth Survey [8.198294998446867]
本調査では,現在の言語モデル研究において,最も広く用いられている公平性データセットについて検討する。我々は、データセットとスコアリングメソッド間の人口格差の一貫したパターンを明らかにする統一評価フレームワークを導入する。モデルフェアネスに関する結論に影響を与えることがしばしば見過ごされるバイアスを強調し、これらのデータセットを選択し、組み合わせ、解釈するための実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-06-29T22:11:58Z)
Beyond Dataset Creation: Critical View of Annotation Variation and Bias Probing of a Dataset for Online Radical Content Detection [5.509174347606238]
我々は、ラディゼーションレベル、行動呼び出し、英語、フランス語、アラビア語で名前付きエンティティを注釈付けした、一般公開された多言語データセットを紹介します。このデータセットは、コンテキスト情報を保持しながら個人のプライバシを保護するために匿名化される。我々はアノテーションのプロセスを分析し、アノテータ間のバイアスと不一致を強調し、それらがモデル性能に与える影響を明らかにする。
論文参考訳（メタデータ） (2024-12-16T13:03:43Z)
Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文参考訳（メタデータ） (2024-11-22T12:37:41Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文参考訳（メタデータ） (2024-02-27T23:59:01Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Data Distribution Bottlenecks in Grounding Language Models to Knowledge Bases [9.610231090476857]
言語モデル(LM)は、自然言語と形式言語の両方を理解し、生成する際、すでに顕著な能力を示している。本論文は,知識ベース質問応答(KBQA)を課題として,LMが直面する課題を明らかにすることを目的とした実験的研究である。実験の結果,提案手法を応用しても,様々な次元において,先進的な小・大規模言語モデルの性能が低下していることが判明した。
論文参考訳（メタデータ） (2023-09-15T12:06:45Z)
Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文参考訳（メタデータ） (2023-06-23T15:15:13Z)
DATED: Guidelines for Creating Synthetic Datasets for Engineering Design Applications [3.463438487417909]
本研究では,合成データセットの生成,注釈付け,検証のための包括的ガイドラインを提案する。この研究は、データセットの適切なサイズ、多様性、有用性、現実性を保証するために、思慮深いサンプリング手法の重要性を強調している。本論文は、総合的に、エンジニアリング設計のための合成データセットの作成と公開を意図した研究者に貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-05-15T21:00:09Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。