論文の概要: ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling
- arxiv url: http://arxiv.org/abs/2201.01337v1
- Date: Tue, 4 Jan 2022 20:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 13:28:20.356162
- Title: ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling
- Title(参考訳): ZeroBERTo -- トピックモデリングによるゼロショットテキスト分類の活用
- Authors: Alexandre Alcoforado, Thomas Palmeira Ferraz, Rodrigo Gerber, Enzo
Bustos, Andr\'e Seidel Oliveira, Bruno Miguel Veloso, Fabio Levy Siqueira,
Anna Helena Reali Costa
- Abstract要約: 本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
- 参考スコア(独自算出の注目度): 57.80052276304937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional text classification approaches often require a good amount of
labeled data, which is difficult to obtain, especially in restricted domains or
less widespread languages. This lack of labeled data has led to the rise of
low-resource methods, that assume low data availability in natural language
processing. Among them, zero-shot learning stands out, which consists of
learning a classifier without any previously labeled data. The best results
reported with this approach use language models such as Transformers, but fall
into two problems: high execution time and inability to handle long texts as
input. This paper proposes a new model, ZeroBERTo, which leverages an
unsupervised clustering step to obtain a compressed data representation before
the classification task. We show that ZeroBERTo has better performance for long
inputs and shorter execution time, outperforming XLM-R by about 12% in the F1
score in the FolhaUOL dataset. Keywords: Low-Resource NLP, Unlabeled data,
Zero-Shot Learning, Topic Modeling, Transformers.
- Abstract(参考訳): 従来のテキスト分類手法は、しばしば大量のラベル付きデータを必要とするが、特に制限されたドメインやあまり普及していない言語では入手が困難である。
このラベル付きデータの欠如は、自然言語処理における低データ可用性を前提とした低リソースメソッドの台頭につながった。
中でもゼロショット学習は際立っており、以前のラベル付きデータなしで分類器を学習する。
このアプローチで報告された最良の結果はトランスフォーマーのような言語モデルであるが、高い実行時間と長いテキストを入力として処理できないという2つの問題に陥る。
本稿では,分類タスクの前に圧縮データ表現を得るために教師なしクラスタリングステップを利用する新しいモデルであるzerobertoを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
キーワード:低リソースNLP、ラベルなしデータ、ゼロショット学習、トピックモデリング、トランスフォーマー。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed
Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language
Models [0.0]
混合コード低リソース言語におけるヘイトスピーチ検出は、大規模言語モデルの使用が有益であることが証明された活発な問題領域である。
そこで本研究では,100件のYouTubeコメントのデータセットを作成した。
すべてのアプローチにおいて、双方向自動回帰変換器(BART)を用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。
論文 参考訳(メタデータ) (2024-03-04T15:27:49Z) - STENCIL: Submodular Mutual Information Based Weak Supervision for Cold-Start Active Learning [1.9116784879310025]
STENCILは、クラス不均衡のコールドスタート設定において、一般的なアクティブな学習手法に対して、複数のテキスト分類データセットに対して10%-18%の精度で、レアクラスのF-1スコアを17%-40%の精度で改善する。
STENCILは、クラス不均衡のコールドスタート設定において、一般的なアクティブな学習方法よりも、複数のテキスト分類データセットに対して10%-18%、レアクラスのF-1スコアを17%-40%の精度で改善することを示した。
論文 参考訳(メタデータ) (2024-02-21T01:54:58Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - Beyond prompting: Making Pre-trained Language Models Better Zero-shot
Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。
提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-29T16:01:51Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。