論文の概要: T5 for Hate Speech, Augmented Data and Ensemble
- arxiv url: http://arxiv.org/abs/2210.05480v1
- Date: Tue, 11 Oct 2022 14:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:44:50.595613
- Title: T5 for Hate Speech, Augmented Data and Ensemble
- Title(参考訳): ヘイトスピーチ、拡張データ、アンサンブルのためのT5
- Authors: Tosin Adewumi, Sana Sabah Sabry, Nosheen Abid, Foteini Liwicki and
Marcus Liwicki
- Abstract要約: 我々は6つのデータセットの11のサブタスクに対して、異なる最先端(SoTA)ベースラインを使用して自動ヘイトスピーチ(HS)検出を行う。
我々のモチベーションは、最近のSoTAモデルのうちどれが、自動ヘイトスピーチ検出に最適なのか、データ拡張やアンサンブルのような利点のある方法が、もしあれば、最良のモデルに何があるかを決定することです。
- 参考スコア(独自算出の注目度): 1.3445335428144554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We conduct relatively extensive investigations of automatic hate speech (HS)
detection using different state-of-the-art (SoTA) baselines over 11 subtasks of
6 different datasets. Our motivation is to determine which of the recent SoTA
models is best for automatic hate speech detection and what advantage methods
like data augmentation and ensemble may have on the best model, if any. We
carry out 6 cross-task investigations. We achieve new SoTA on two subtasks -
macro F1 scores of 91.73% and 53.21% for subtasks A and B of the HASOC 2020
dataset, where previous SoTA are 51.52% and 26.52%, respectively. We achieve
near-SoTA on two others - macro F1 scores of 81.66% for subtask A of the OLID
2019 dataset and 82.54% for subtask A of the HASOC 2021 dataset, where SoTA are
82.9% and 83.05%, respectively. We perform error analysis and use two
explainable artificial intelligence (XAI) algorithms (IG and SHAP) to reveal
how two of the models (Bi-LSTM and T5) make the predictions they do by using
examples. Other contributions of this work are 1) the introduction of a simple,
novel mechanism for correcting out-of-class (OOC) predictions in T5, 2) a
detailed description of the data augmentation methods, 3) the revelation of the
poor data annotations in the HASOC 2021 dataset by using several examples and
XAI (buttressing the need for better quality control), and 4) the public
release of our model checkpoints and codes to foster transparency.
- Abstract(参考訳): 我々は6つのデータセットの11のサブタスクに対して、異なる最先端(SoTA)ベースラインを用いた自動ヘイトスピーチ(HS)検出を比較的広範囲に実施する。
私たちのモチベーションは、最近のsomaモデルのうちどのモデルがヘイトスピーチの自動検出に最適か、データ拡張やアンサンブルのような方法が最良のモデルにどのような利点があるかを決定することです。
クロスタスク調査を6回実施する。
我々は、hasoc 2020データセットのサブタスクaとbに対して、それぞれ51.52%と26.52%の2つのサブタスクf1スコア91.73%と53.21%で新しいsotaを実現する。
OLID 2019データセットのサブタスクAのマクロF1スコアは81.66%、HASOC 2021データセットのサブタスクAの82.54%であり、それぞれ82.9%と83.05%である。
エラー解析を行い、2つの説明可能な人工知能(XAI)アルゴリズム(IGとSHAP)を用いて、2つのモデル(Bi-LSTMとT5)が例を用いてどのように予測を行うかを明らかにする。
この作品の他の貢献は
1)T5におけるOOC予測の修正のためのシンプルで斬新なメカニズムの導入
2)データ拡張方法の詳細な説明
3)いくつかの例とXAI(品質管理の改善の必要性を推し進める)を用いて、HASOC 2021データセットの貧弱なデータアノテーションの啓示を行う。
4)透明性を高めるためのモデルチェックポイントとコードの公開リリース。
関連論文リスト
- Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - HaT5: Hate Language Identification using Text-to-Text Transfer
Transformer [1.2532400738980594]
比較的多様な2つのデータセットから5つのタスクにまたがる最先端技術(SoTA)アーキテクチャT5の性能について検討する。
性能向上のために,自己回帰モデルを用いてトレーニングデータを増強する。
サンプルの小さなセットを使用することで、データアノテーションが貧弱であることの難しさを明らかにします。
論文 参考訳(メタデータ) (2022-02-11T15:21:27Z) - Reference-based Weak Supervision for Answer Sentence Selection using Web
Data [87.18646699292293]
完全自動大規模データパイプラインであるReference-based Weak Supervision (RWS)を紹介する。
RWSは豊富なWebデータから高品質な教師付き回答を抽出する。
我々の実験は、生成したデータが常にTANDAを支えていることを示している。
論文 参考訳(メタデータ) (2021-04-18T19:41:17Z) - BreakingBERT@IITK at SemEval-2021 Task 9 : Statement Verification and
Evidence Finding with Tables [1.78256232654567]
我々は,事実の検証と証拠発見の問題を表データ上で解決する。
与えられたSemTabFactデータセットのベースラインと最先端のアプローチを比較します。
また,自然言語推論タスクの一形態としてエビデンスを解くための新しいアプローチCellBERTを提案する。
論文 参考訳(メタデータ) (2021-04-07T11:41:07Z) - LRG at SemEval-2021 Task 4: Improving Reading Comprehension with
Abstract Words using Augmentation, Linguistic Features and Voting [0.6850683267295249]
フィリングインザブランクタイプの質問を考えると、タスクは5つのオプションのリストから最適な単語を予測することです。
マスク付き言語モデリング(MLM)タスクで事前訓練されたトランスフォーマーベースのモデルのエンコーダを使用して、Fill-in-the-Blank(FitB)モデルを構築します。
本稿では,BERT の入力長制限に対処するため,チャンク投票や Max Context という変種を提案する。
論文 参考訳(メタデータ) (2021-02-24T12:33:12Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - iTAML: An Incremental Task-Agnostic Meta-learning Approach [123.10294801296926]
人間は経験が成長するにつれて、新しい知識を継続的に学ぶことができる。
ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
遭遇した全てのタスク間の平衡を維持するために,新しいメタラーニング手法を導入する。
論文 参考訳(メタデータ) (2020-03-25T21:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。