論文の概要: Towards Agile Text Classifiers for Everyone
- arxiv url: http://arxiv.org/abs/2302.06541v2
- Date: Sat, 21 Oct 2023 11:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 13:33:26.319458
- Title: Towards Agile Text Classifiers for Everyone
- Title(参考訳): 全員のためのアジャイルテキスト分類器を目指して
- Authors: Maximilian Mozes, Jessica Hoffmann, Katrin Tomanek, Muhamed Kouate,
Nithum Thain, Ann Yuan, Tolga Bolukbasi, Lucas Dixon
- Abstract要約: 本稿では,アジャイルテキスト分類の手法を紹介し,評価する。
そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。
これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
- 参考スコア(独自算出の注目度): 24.26016793452301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based safety classifiers are widely used for content moderation and
increasingly to tune generative language model behavior - a topic of growing
concern for the safety of digital assistants and chatbots. However, different
policies require different classifiers, and safety policies themselves improve
from iteration and adaptation. This paper introduces and evaluates methods for
agile text classification, whereby classifiers are trained using small,
targeted datasets that can be quickly developed for a particular policy.
Experimenting with 7 datasets from three safety-related domains, comprising 15
annotation schemes, led to our key finding: prompt-tuning large language
models, like PaLM 62B, with a labeled dataset of as few as 80 examples can
achieve state-of-the-art performance. We argue that this enables a paradigm
shift for text classification, especially for models supporting safer online
discourse. Instead of collecting millions of examples to attempt to create
universal safety classifiers over months or years, classifiers could be tuned
using small datasets, created by individuals or small organizations, tailored
for specific use cases, and iterated on and adapted in the time-span of a day.
- Abstract(参考訳): テキストベースの安全分類器はコンテンツのモデレーションに広く使われており、デジタルアシスタントやチャットボットの安全性に対する懸念が高まっている。
しかし、異なるポリシーは異なる分類器を必要とし、安全ポリシー自体はイテレーションと適応から改善される。
本稿では、アジャイルテキスト分類の手法を紹介し、特定のポリシーのために迅速に開発できる小さなターゲットデータセットを用いて分類器を訓練する。
安全関連の3つのドメインから7つのデータセットを15のアノテーションスキームで実験した結果、重要な発見が得られました。
これにより、特に安全なオンライン談話をサポートするモデルにおいて、テキスト分類のパラダイムシフトが可能になると論じている。
数百万のサンプルを収集して、数ヶ月や数年にわたって普遍的な安全分類器を作成しようとするのではなく、個人や小さな組織によって作成された小さなデータセットを使って分類器をチューニングし、特定のユースケースに合わせて調整し、一日のタイムスパンで繰り返し適用することができる。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Adapting Deep Learning for Sentiment Classification of Code-Switched
Informal Short Text [1.6752182911522517]
コードスイッチによる非公式テキストの感情分類のために,MultiSentiというラベル付きデータセットを提案する。
コードスイッチトされた非公式短文の感情分類のための深層学習に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-01-04T06:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。