論文の概要: Task Adaptive Pretraining of Transformers for Hostility Detection
- arxiv url: http://arxiv.org/abs/2101.03382v1
- Date: Sat, 9 Jan 2021 15:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 09:23:55.402980
- Title: Task Adaptive Pretraining of Transformers for Hostility Detection
- Title(参考訳): 敵意検出のための変圧器のタスク適応プリトレーニング
- Authors: Tathagata Raha, Sayar Ghosh Roy, Ujwal Narayan, Zubair Abid, Vasudeva
Varma
- Abstract要約: a)ヒンディー語のツイートの粗い二分分類を敵対的か否か、b)ツイートのきめ細かい多重ラベル分類を4つのカテゴリ(ヘイト、フェイク、アグレッシブ、デマネーション)に分類する。
本システムでは, 粗粒度検出のF1スコアが97.16%, 重み付きF1スコアが62.96%, 得られたブラインドテストコーパスの細粒度多ラベル分類のF1スコアが62.96%であった。
- 参考スコア(独自算出の注目度): 11.306581296760864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying adverse and hostile content on the web and more particularly, on
social media, has become a problem of paramount interest in recent years. With
their ever increasing popularity, fine-tuning of pretrained Transformer-based
encoder models with a classifier head are gradually becoming the new baseline
for natural language classification tasks. In our work, we explore the gains
attributed to Task Adaptive Pretraining (TAPT) prior to fine-tuning of
Transformer-based architectures. We specifically study two problems, namely,
(a) Coarse binary classification of Hindi Tweets into Hostile or Not, and (b)
Fine-grained multi-label classification of Tweets into four categories: hate,
fake, offensive, and defamation. Building up on an architecture which takes
emojis and segmented hashtags into consideration for classification, we are
able to experimentally showcase the performance upgrades due to TAPT. Our
system (with team name 'iREL IIIT') ranked first in the 'Hostile Post Detection
in Hindi' shared task with an F1 score of 97.16% for coarse-grained detection
and a weighted F1 score of 62.96% for fine-grained multi-label classification
on the provided blind test corpora.
- Abstract(参考訳): web上の悪質で敵対的なコンテンツや、特にソーシャルメディア上のコンテンツの特定は、近年では重要な関心事となっている。
ますます人気が高まっている中、トランスフォーマーベースのエンコーダモデルの分類器ヘッドによる微調整が、徐々に自然言語分類タスクの新たなベースラインになりつつある。
本稿では、Transformerベースのアーキテクチャを微調整する前に、タスク適応事前学習(TAPT)に起因する利得について検討する。
具体的には、(a)ヒンディー語のツイートの粗い二分分類を敵対的か否か、(b)ツイートのきめ細かい多重ラベル分類を4つのカテゴリ(ヘイト、フェイク、アサルト、デマネーション)に分類する。
絵文字とセグメント化されたハッシュタグを分類に取り入れたアーキテクチャを構築すれば,TAPTによるパフォーマンス向上を実験的に示すことができる。
本システム(チーム名「iREL IIIT」)は, 粗粒度検出用F1スコア97.16%, 重み付きF1スコア62.96%で, 得られたブラインドテストコーパス上での細粒度多ラベル分類用F1スコアで第1位となった。
関連論文リスト
- STF: Sentence Transformer Fine-Tuning For Topic Categorization With Limited Data [0.27309692684728604]
Sentence Transformers Fine-tuning (STF) は、事前訓練されたSentence Transformersモデルと微調整を利用して、ツイートからトピックを正確に分類するトピック検出システムである。
我々の主な貢献は、事前訓練された文変換言語モデルを適用することで、ツイートトピック分類における有望な結果の達成である。
論文 参考訳(メタデータ) (2024-07-03T16:34:56Z) - BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using
Genre Classification [0.27195102129095]
トピックの分布が変化すると、分類タスクは依然としてパフォーマンスのギャップに悩まされる。
我々はこの現象を、大きなコーパスと大きなトピックセットで実証的に定量化する。
学習データセットを局所的に制御された合成テキストで強化した後、いくつかのトピックでF1スコアは最大50%改善する。
論文 参考訳(メタデータ) (2023-11-27T18:53:31Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Subsidiary Prototype Alignment for Universal Domain Adaptation [58.431124236254]
Universal Domain Adaptation (UniDA)の大きな問題は、"known"クラスと"unknown"クラスの誤調整である。
ゴールタスクUniDAと協調して動作するクローズドセットSPAを実現するために,新しい単語ヒストグラム関連プレテキストタスクを提案する。
既存のUniDA技術上でのアプローチの有効性を実証し,3つの標準UniDAおよびOpen-Set DAオブジェクト認識ベンチマークの最先端性能を示す。
論文 参考訳(メタデータ) (2022-10-28T05:32:14Z) - Paragraph-based Transformer Pre-training for Multi-Sentence Inference [99.59693674455582]
マルチ候補推論タスクの微調整に使用する場合,一般的な事前学習型トランスフォーマーは性能が良くないことを示す。
次に、複数の入力文にまたがる段落レベルの意味をモデル化する新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2022-05-02T21:41:14Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Walk in Wild: An Ensemble Approach for Hostility Detection in Hindi
Posts [3.9373541926236766]
我々は,事前学習したmBERTと,ニューラルネットワーク(ANN)やXGBoostなどの一般的な分類アルゴリズムに基づいて,ヒンディー語投稿の敵意検出のための簡単なアンサンブルモデルを構築した。
コンペティションの総合順位は0.969, 重み付きf1スコアは0.961で, それぞれ2段分類と多段分類タスクで3位であった。
論文 参考訳(メタデータ) (2021-01-15T07:49:27Z) - Bangla Text Classification using Transformers [2.3475904942266697]
テキスト分類はNLPの最も初期の問題の一つである。
本研究では,Banglaテキスト分類タスクのための多言語変換モデルを微調整する。
6つのベンチマークデータセットのアート結果の状態を把握し、前回の結果を5~29%の精度で改善する。
論文 参考訳(メタデータ) (2020-11-09T14:12:07Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。