論文の概要: Zero-shot Code-Mixed Offensive Span Identification through Rationale
Extraction
- arxiv url: http://arxiv.org/abs/2205.06119v1
- Date: Thu, 12 May 2022 14:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 18:00:48.529579
- Title: Zero-shot Code-Mixed Offensive Span Identification through Rationale
Extraction
- Title(参考訳): Rationale 抽出によるゼロショット符号混合攻撃スパン同定
- Authors: Manikandan Ravikiran, Bharathi Raja Chakravarthi
- Abstract要約: 本稿では,ゼロショット攻撃スパン識別における文レベル変換器の有効性について検討する。
我々は、ゼロショット攻撃スパン識別のためのトランスフォーマーに基づく攻撃言語分類モデルに適応する。
LIMEとIGはともにMasked Data AugmentationとMultilabel Trainingで大幅に改善されている。
- 参考スコア(独自算出の注目度): 4.4960574829030735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the effectiveness of sentence-level transformers for
zero-shot offensive span identification on a code-mixed Tamil dataset. More
specifically, we evaluate rationale extraction methods of Local Interpretable
Model Agnostic Explanations (LIME) \cite{DBLP:conf/kdd/Ribeiro0G16} and
Integrated Gradients (IG) \cite{DBLP:conf/icml/SundararajanTY17} for adapting
transformer based offensive language classification models for zero-shot
offensive span identification. To this end, we find that LIME and IG show
baseline $F_{1}$ of 26.35\% and 44.83\%, respectively. Besides, we study the
effect of data set size and training process on the overall accuracy of span
identification. As a result, we find both LIME and IG to show significant
improvement with Masked Data Augmentation and Multilabel Training, with $F_{1}$
of 50.23\% and 47.38\% respectively. \textit{Disclaimer : This paper contains
examples that may be considered profane, vulgar, or offensive. The examples do
not represent the views of the authors or their employers/graduate schools
towards any person(s), group(s), practice(s), or entity/entities. Instead they
are used to emphasize only the linguistic research challenges.}
- Abstract(参考訳): 本稿では,コードミキシングタミルデータセットを用いたゼロショット攻撃スパン識別における文レベル変換器の有効性について検討する。
より具体的には、ゼロショット攻撃スパン識別のためのトランスフォーマーに基づく攻撃言語分類モデルに適用するために、局所解釈モデルAgnostic Explanations (LIME) \cite{DBLP:conf/kdd/Ribeiro0G16}およびIntegrated Gradients (IG) \cite{DBLP:conf/icml/SundararajanTY17}の合理的抽出方法を評価する。
この結果、lime と ig はそれぞれ 26.35\% と 44.83\% のベースライン $f_{1}$ を示すことがわかった。
さらに,データセットサイズとトレーニングプロセスがスパン識別の全体的な精度に与える影響について検討した。
その結果, Masked Data Augmentation と Multilabel Training では LIME と IG がそれぞれ 50.23 % と 47.38 % で大きく改善されていることがわかった。
\textit{disclaimer : 本論文は、逸脱、粗悪、または攻撃的と見なすことができる例を含む。
この例は、著者やその雇用主や大学院の、あらゆる人(人)、グループ(人)、実践(人)、実体(人)に対する見解を表すものではない。
代わりに、言語研究の課題のみを強調するために使用される。
}
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial
Expression Recognition [46.99756911719854]
ULC-AGと呼ばれる補助行動単位(AU)グラフを用いて,表情の不確実なラベル補正を実現する。
ULC-AGはRAF-DBとAffectNetのデータセットでそれぞれ89.31%と61.57%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-23T11:09:43Z) - SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained
Language Models [9.063614185765855]
本稿では, 単純負の形式として機能する, バッチ内負, バッチ前負, 自己負の3種類の負を導入する。
提案モデルであるSimKGCは,いくつかのベンチマークデータセットにおいて,埋め込みに基づく手法を大幅に上回ることができる。
平均相互ランク(MRR)に関しては、WN18RRでは+19%、Wikidata5Mでは+6.8%、Wikidata5Mでは+22%である。
論文 参考訳(メタデータ) (2022-03-04T07:36:30Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Enhanced Offensive Language Detection Through Data Augmentation [2.2022484178680872]
ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
データセットはクラス不均衡に悩まされており、特定のラベルは他のクラスと比較して非常に稀である。
本稿では,不均衡データと低リソースデータの分類性能を向上させる世代別データ拡張手法であるDagerを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:45:16Z) - Geometry matters: Exploring language examples at the decision boundary [2.7249290070320034]
BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。
YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
論文 参考訳(メタデータ) (2020-10-14T16:26:13Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。