論文の概要: Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed
Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language
Models
- arxiv url: http://arxiv.org/abs/2403.02121v1
- Date: Mon, 4 Mar 2024 15:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:15:20.202247
- Title: Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed
Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language
Models
- Title(参考訳): コード混合hinglishにおけるヘイトスピーチ検出のための弱アノテートデータの利用:大規模言語モデルを用いた実現可能性駆動トランスファー学習アプローチ
- Authors: Sargam Yadav (1), Abhishek Kaushik (1) and Kevin McDaid (1) ((1)
Dundalk Institute of Technology, Dundalk)
- Abstract要約: 混合コード低リソース言語におけるヘイトスピーチ検出は、大規模言語モデルの使用が有益であることが証明された活発な問題領域である。
そこで本研究では,100件のYouTubeコメントのデータセットを作成した。
すべてのアプローチにおいて、双方向自動回帰変換器(BART)を用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Large Language Models (LLMs) has advanced the benchmark in
various Natural Language Processing (NLP) tasks. However, large amounts of
labelled training data are required to train LLMs. Furthermore, data annotation
and training are computationally expensive and time-consuming. Zero and
few-shot learning have recently emerged as viable options for labelling data
using large pre-trained models. Hate speech detection in mix-code low-resource
languages is an active problem area where the use of LLMs has proven
beneficial. In this study, we have compiled a dataset of 100 YouTube comments,
and weakly labelled them for coarse and fine-grained misogyny classification in
mix-code Hinglish. Weak annotation was applied due to the labor-intensive
annotation process. Zero-shot learning, one-shot learning, and few-shot
learning and prompting approaches have then been applied to assign labels to
the comments and compare them to human-assigned labels. Out of all the
approaches, zero-shot classification using the Bidirectional Auto-Regressive
Transformers (BART) large model and few-shot prompting using Generative
Pre-trained Transformer- 3 (ChatGPT-3) achieve the best results
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、様々な自然言語処理(NLP)タスクにおけるベンチマークを前進させた。
しかし、LLMのトレーニングには大量のラベル付きトレーニングデータが必要である。
さらに、データアノテーションとトレーニングは計算に高価で時間を要する。
ゼロと少数ショットの学習は、大規模なトレーニング済みモデルを使用してデータをラベル付けするための実行可能なオプションとして最近登場した。
混合符号低リソース言語におけるヘイトスピーチ検出は、LLMの使用が有益であることが証明された活発な問題領域である。
本研究では,youtubeコメント100点のデータセットをコンパイルし,ミックスコードhinglishの粗雑かつ細粒度の誤認分類に弱くラベル付けした。
労働集約的なアノテーションプロセスにより弱アノテーションが適用された。
ゼロショット学習、ワンショット学習、および少数ショット学習およびプロンプトアプローチが適用され、コメントにラベルを割り当て、人間指定ラベルと比較される。
すべてのアプローチにおいて、双方向自己回帰変換器(BART)大モデルを用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。
関連論文リスト
- Active Learning for NLP with Large Language Models [4.1967870107078395]
アクティブラーニング(AL)テクニックは、可能な限り少数のサンプルをラベル付けして、合理的あるいは同様の結果に到達することができる。
本研究では,3つのデータセットにサンプルをラベル付けするためにLLM(Large Language Models)を使用することの正確さとコストについて検討する。
論文 参考訳(メタデータ) (2024-01-14T21:00:52Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。