論文の概要: Zero-shot Code-Mixed Offensive Span Identification through Rationale
Extraction
- arxiv url: http://arxiv.org/abs/2205.06119v1
- Date: Thu, 12 May 2022 14:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 18:00:48.529579
- Title: Zero-shot Code-Mixed Offensive Span Identification through Rationale
Extraction
- Title(参考訳): Rationale 抽出によるゼロショット符号混合攻撃スパン同定
- Authors: Manikandan Ravikiran, Bharathi Raja Chakravarthi
- Abstract要約: 本稿では,ゼロショット攻撃スパン識別における文レベル変換器の有効性について検討する。
我々は、ゼロショット攻撃スパン識別のためのトランスフォーマーに基づく攻撃言語分類モデルに適応する。
LIMEとIGはともにMasked Data AugmentationとMultilabel Trainingで大幅に改善されている。
- 参考スコア(独自算出の注目度): 4.4960574829030735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the effectiveness of sentence-level transformers for
zero-shot offensive span identification on a code-mixed Tamil dataset. More
specifically, we evaluate rationale extraction methods of Local Interpretable
Model Agnostic Explanations (LIME) \cite{DBLP:conf/kdd/Ribeiro0G16} and
Integrated Gradients (IG) \cite{DBLP:conf/icml/SundararajanTY1 7} for adapting
transformer based offensive language classification models for zero-shot
offensive span identification. To this end, we find that LIME and IG show
baseline $F_{1}$ of 26.35\% and 44.83\%, respectively. Besides, we study the
effect of data set size and training process on the overall accuracy of span
identification. As a result, we find both LIME and IG to show significant
improvement with Masked Data Augmentation and Multilabel Training, with $F_{1}$
of 50.23\% and 47.38\% respectively. \textit{Disclaimer : This paper contains
examples that may be considered profane, vulgar, or offensive. The examples do
not represent the views of the authors or their employers/graduate schools
towards any person(s), group(s), practice(s), or entity/entities. Instead they
are used to emphasize only the linguistic research challenges.}
- Abstract(参考訳): 本稿では,コードミキシングタミルデータセットを用いたゼロショット攻撃スパン識別における文レベル変換器の有効性について検討する。
より具体的には、ゼロショット攻撃スパン識別のためのトランスフォーマーに基づく攻撃言語分類モデルに適用するために、局所解釈モデルAgnostic Explanations (LIME) \cite{DBLP:conf/kdd/Ribeiro0G16}およびIntegrated Gradients (IG) \cite{DBLP:conf/icml/SundararajanTY1 7}の合理的抽出方法を評価する。
この結果、lime と ig はそれぞれ 26.35\% と 44.83\% のベースライン $f_{1}$ を示すことがわかった。
さらに,データセットサイズとトレーニングプロセスがスパン識別の全体的な精度に与える影響について検討した。
その結果, Masked Data Augmentation と Multilabel Training では LIME と IG がそれぞれ 50.23 % と 47.38 % で大きく改善されていることがわかった。
\textit{disclaimer : 本論文は、逸脱、粗悪、または攻撃的と見なすことができる例を含む。
この例は、著者やその雇用主や大学院の、あらゆる人(人)、グループ(人)、実践(人)、実体(人)に対する見解を表すものではない。
代わりに、言語研究の課題のみを強調するために使用される。
}
- 全文 参考訳へのリンク
関連論文リスト
- Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - Automatic Language Identification for Celtic Texts [0.0]
この研究は、ケルト語族を例に、関連する低リソース言語の識別に対処する。
アイルランド語、スコットランド語、ウェールズ語、英語のレコードを含む新しいデータセットを収集しました。
我々は、クラスタリング、オートエンコーダ、トピックモデリングメソッドの出力と並行して、従来の統計的特徴を持つSVMやニューラルネットワークなどの教師付きモデルをテストする。
論文 参考訳(メタデータ) (2022-03-09T16:04:13Z) - SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained
Language Models [9.063614185765855]
本稿では, 単純負の形式として機能する, バッチ内負, バッチ前負, 自己負の3種類の負を導入する。
提案モデルであるSimKGCは,いくつかのベンチマークデータセットにおいて,埋め込みに基づく手法を大幅に上回ることができる。
平均相互ランク(MRR)に関しては、WN18RRでは+19%、Wikidata5Mでは+6.8%、Wikidata5Mでは+22%である。
論文 参考訳(メタデータ) (2022-03-04T07:36:30Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Offensive Language Detection with BERT-based models, By Customizing
Attention Probabilities [0.0]
本稿では,攻撃言語検出タスクにおけるBERTモデルの性能向上手法を提案する。
我々は、注意マスクの入力を変更して、より効果的な単語埋め込みを作成することにより、注意確率をカスタマイズする。
最も良くなったのは、英語とペルシア語でそれぞれ2%と10%であった。
論文 参考訳(メタデータ) (2021-10-11T10:23:44Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - Enhanced Offensive Language Detection Through Data Augmentation [2.2022484178680872]
ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
データセットはクラス不均衡に悩まされており、特定のラベルは他のクラスと比較して非常に稀である。
本稿では,不均衡データと低リソースデータの分類性能を向上させる世代別データ拡張手法であるDagerを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。