論文の概要: Directions in Abusive Language Training Data: Garbage In, Garbage Out
- arxiv url: http://arxiv.org/abs/2004.01670v3
- Date: Mon, 19 Jul 2021 07:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:28:02.910609
- Title: Directions in Abusive Language Training Data: Garbage In, Garbage Out
- Title(参考訳): Abusive Language Training Dataの方向性: ガーベッジイン、ガーベージアウト
- Authors: Bertie Vidgen and Leon Derczynski
- Abstract要約: 本稿では,乱用言語データのカタログ化のためのオープンWebサイトとともに,乱用言語データセットの作成とコンテンツについて体系的にレビューする。
この知識の収集は、この複雑で多種多様なデータを扱う実践者に対してエビデンスベースのレコメンデーションを提供する合成につながる。
- 参考スコア(独自算出の注目度): 13.754996392663314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven analysis and detection of abusive online content covers many
different tasks, phenomena, contexts, and methodologies. This paper
systematically reviews abusive language dataset creation and content in
conjunction with an open website for cataloguing abusive language data. This
collection of knowledge leads to a synthesis providing evidence-based
recommendations for practitioners working with this complex and highly diverse
data.
- Abstract(参考訳): データ駆動分析と乱用オンラインコンテンツの検出は、様々なタスク、現象、文脈、方法論をカバーする。
本稿では,乱用言語データのカタログ作成のためのオープンwebサイトと連携して,乱用言語データセットの作成とコンテンツを体系的にレビューする。
この知識の収集は、この複雑で多種多様なデータを扱う実践者に対してエビデンスベースのレコメンデーションを提供する合成につながる。
関連論文リスト
- Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data [66.21317300595483]
機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。
私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
論文 参考訳(メタデータ) (2023-02-23T16:26:11Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Abusive Language Detection in Heterogeneous Contexts: Dataset Collection
and the Role of Supervised Attention [9.597481034467915]
乱用言語は、オンラインソーシャルプラットフォームにおいて大きな問題である。
YouTubeから11,000以上のコメントで、乱用言語の注釈付きデータセットを提供する。
本稿では,教師付きアテンション機構を用いて乱用コンテンツを検出し,分類するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-24T06:50:19Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - "To Target or Not to Target": Identification and Analysis of Abusive
Text Using Ensemble of Classifiers [18.053219155702465]
ソーシャルメディアプラットフォーム上での虐待的・憎悪的コンテンツを識別・分析するためのアンサンブル学習手法を提案する。
私たちの積み重ねられたアンサンブルは、3つの機械学習モデルで構成されており、言語のさまざまな側面をキャプチャし、不適切な言語に関する多様な一貫性のある洞察を提供する。
論文 参考訳(メタデータ) (2020-06-05T06:59:22Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。