Fugu-MT 論文翻訳(概要): On Cross-Dataset Generalization in Automatic Detection of Online Abuse

論文の概要: On Cross-Dataset Generalization in Automatic Detection of Online Abuse

arxiv url: http://arxiv.org/abs/2010.07414v3
Date: Wed, 19 May 2021 18:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 12:36:53.018529
Title: On Cross-Dataset Generalization in Automatic Detection of Online Abuse
Title（参考訳）: オンライン乱用の自動検出におけるクロスデータセット一般化について
Authors: Isar Nejadgholi and Svetlana Kiritchenko
Abstract要約: Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。教師なしトピックモデリングとトピックのキーワードの手動検査を用いてこれらの例を同定する。頑健なデータセット設計のために、収集したデータを検査し、一般化不可能なコンテンツを小さくするために、安価な教師なし手法を適用することを提案する。
参考スコア（独自算出の注目度）: 7.163723138100273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: NLP research has attained high performances in abusive language detection as a supervised classification task. While in research settings, training and test datasets are usually obtained from similar data samples, in practice systems are often applied on data that are different from the training set in topic and class distributions. Also, the ambiguity in class definitions inherited in this task aggravates the discrepancies between source and target datasets. We explore the topic bias and the task formulation bias in cross-dataset generalization. We show that the benign examples in the Wikipedia Detox dataset are biased towards platform-specific topics. We identify these examples using unsupervised topic modeling and manual inspection of topics' keywords. Removing these topics increases cross-dataset generalization, without reducing in-domain classification performance. For a robust dataset design, we suggest applying inexpensive unsupervised methods to inspect the collected data and downsize the non-generalizable content before manually annotating for class labels.
Abstract（参考訳）: NLP研究は、教師付き分類タスクとして、虐待的言語検出において高いパフォーマンスを達成した。研究環境では、トレーニングデータセットとテストデータセットは、通常同様のデータサンプルから得られるが、実際には、トピックやクラス分布のトレーニングセットとは異なるデータに適用されることが多い。また、このタスクで継承されるクラス定義の曖昧さは、ソースとターゲットデータセットの相違を悪化させる。クロスデータセット一般化におけるトピックバイアスとタスク定式バイアスについて検討する。 Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。教師なしトピックモデリングとトピックキーワードの手動検査を用いて,これらの例を同定する。これらのトピックの削除は、ドメイン内の分類性能を低下させることなく、データセット間の一般化を促進する。頑健なデータセット設計のために,クラスラベルを手動で注釈付けする前に,安価な教師なし手法を用いて収集したデータを検査し,一般化不可能なコンテンツを縮小することを提案する。

関連論文リスト

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers [25.909153114646692]
既存のバイアス識別のアプローチは、関心のあるタスクのラベルを含むデータセットに依存している。ラベル付きデータにアクセスせずに動作する最初のバイアス発見フレームワークである-to-Bias(C2B)を提示する。 C2Bはトレーニング不要で、アノテーションを一切必要とせず、バイアスのリストに制約がなく、任意の分類タスクで事前訓練されたモデルに適用できる。
論文参考訳（メタデータ） (2025-04-29T16:19:38Z)
Towards Weakly-Supervised Hate Speech Classification Across Datasets [47.101942709219784]
そこで本研究では,テキスト分類モデルの有効性について検討した。また,HS分類モデルの一般化性の低さの原因について,詳細な定量的,定性的な分析を行った。
論文参考訳（メタデータ） (2023-05-04T08:15:40Z)
Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics [3.9627732117855414]
メタデータ考古学のための統一的で効率的なフレームワークを提供することに注力する。データセットに存在する可能性のあるデータのさまざまなサブセットをキュレートします。これらのプローブスイート間の学習力学の相違を利用して、関心のメタデータを推測する。
論文参考訳（メタデータ） (2022-09-20T21:52:39Z)
Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。確立されたデータセットには互いに互換性のないラベルがあります野生の原理的推論を妨害します我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文参考訳（メタデータ） (2022-07-18T08:53:17Z)
Identifying the Context Shift between Test Benchmarks and Production Data [1.2259552039796024]
データセットベンチマークにおける機械学習モデルの精度と実運用データの間には、パフォーマンスのギャップがある。分布変化とモデル予測誤差につながる文脈変化を同定する2つの手法を概説する。本研究は,機械学習モデルに基づく暗黙の仮定を強調するケーススタディを2つ提示する。
論文参考訳（メタデータ） (2022-07-03T14:54:54Z)
Classification of datasets with imputed missing values: does imputation quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文参考訳（メタデータ） (2022-06-16T22:58:03Z)
Learning Debiased and Disentangled Representations for Semantic Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文参考訳（メタデータ） (2021-10-31T16:15:09Z)
Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文参考訳（メタデータ） (2021-06-11T01:36:08Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
Summary-Source Proposition-level Alignment: Task, Datasets and Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文参考訳（メタデータ） (2020-09-01T17:27:12Z)
Automatically Discovering and Learning New Visual Categories with Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文参考訳（メタデータ） (2020-02-13T18:53:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。