論文の概要: GUIR at SemEval-2020 Task 12: Domain-Tuned Contextualized Models for
Offensive Language Detection
- arxiv url: http://arxiv.org/abs/2007.14477v1
- Date: Tue, 28 Jul 2020 20:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:20:25.222241
- Title: GUIR at SemEval-2020 Task 12: Domain-Tuned Contextualized Models for
Offensive Language Detection
- Title(参考訳): SemEval-2020 Task 12:Domain-Tuned Contextualized Models for Offensive Language Detection
- Authors: Sajad Sotudeh, Tong Xiang, Hao-Ren Yao, Sean MacAvaney, Eugene Yang,
Nazli Goharian, Ophir Frieder
- Abstract要約: OffensEval 2020タスクには、攻撃的言語(Sub-task A)の存在の特定、攻撃的言語(Sub-task B)のターゲットの存在の特定、ターゲットのカテゴリ(Sub-task C)の識別の3つのサブタスクが含まれている。
サブタスクAのF1スコアは91.7%、サブタスクBの66.5%、サブタスクCの63.2%である。
- 参考スコア(独自算出の注目度): 27.45642971636561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offensive language detection is an important and challenging task in natural
language processing. We present our submissions to the OffensEval 2020 shared
task, which includes three English sub-tasks: identifying the presence of
offensive language (Sub-task A), identifying the presence of target in
offensive language (Sub-task B), and identifying the categories of the target
(Sub-task C). Our experiments explore using a domain-tuned contextualized
language model (namely, BERT) for this task. We also experiment with different
components and configurations (e.g., a multi-view SVM) stacked upon BERT models
for specific sub-tasks. Our submissions achieve F1 scores of 91.7% in Sub-task
A, 66.5% in Sub-task B, and 63.2% in Sub-task C. We perform an ablation study
which reveals that domain tuning considerably improves the classification
performance. Furthermore, error analysis shows common misclassification errors
made by our model and outlines research directions for future.
- Abstract(参考訳): 攻撃的言語検出は自然言語処理において重要かつ困難なタスクである。
本稿では,攻撃的言語の存在(サブタスクA),攻撃的言語の存在(サブタスクB),標的のカテゴリ(サブタスクC)の3つのサブタスクを含む,OffensEval 2020共有タスクを提案する。
私たちの実験では、このタスクにドメインチューニングされたコンテキスト化言語モデル(bert)を使用します。
また、特定のサブタスクに対してBERTモデルに重ねられた異なるコンポーネントや構成(例えば、マルチビューSVM)を実験する。
提案手法では,サブタスクaでは91.7%,サブタスクbでは66.5%,サブタスクcでは63.2%のf1スコアを達成している。
さらに, 誤差解析は, モデルによる一般的な誤分類誤りを示し, 今後の研究方向性を概説する。
関連論文リスト
- SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - LRG at SemEval-2021 Task 4: Improving Reading Comprehension with
Abstract Words using Augmentation, Linguistic Features and Voting [0.6850683267295249]
フィリングインザブランクタイプの質問を考えると、タスクは5つのオプションのリストから最適な単語を予測することです。
マスク付き言語モデリング(MLM)タスクで事前訓練されたトランスフォーマーベースのモデルのエンコーダを使用して、Fill-in-the-Blank(FitB)モデルを構築します。
本稿では,BERT の入力長制限に対処するため,チャンク投票や Max Context という変種を提案する。
論文 参考訳(メタデータ) (2021-02-24T12:33:12Z) - Ghmerti at SemEval-2019 Task 6: A Deep Word- and Character-based
Approach to Offensive Language Identification [1.192436948211501]
OffensEvalは、ソーシャルメディアにおける攻撃的言語を特定し分類する問題に対処する。
提案手法には、文字レベルの畳み込みニューラルネットワーク、単語レベルのリカレントニューラルネットワーク、いくつかの前処理が含まれる。
提案したサブタスクAモデルの性能は77.93%のマクロ平均F1スコアである。
論文 参考訳(メタデータ) (2020-09-22T20:13:48Z) - BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense [1.433758865948252]
本稿では,SemEval 2020 Task 4 - Commonsense Validation and ExplanationにおけるBUT-FITチームの作業について述べる。
サブタスクAとBでは、事前訓練された言語表現モデル(ALBERT)とデータ拡張に基づいている。
我々は、多言語モデルと機械翻訳データセットを用いて、別の言語であるチェコ語のタスクを解く実験を行った。
強い機械翻訳システムでは, 精度の低下を少なく抑えながら, 他言語で使用することができることを示す。
論文 参考訳(メタデータ) (2020-08-17T12:45:39Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。