論文の概要: Regular Expressions for Fast-response COVID-19 Text Classification
- arxiv url: http://arxiv.org/abs/2102.09507v2
- Date: Fri, 19 Feb 2021 19:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 12:00:10.799035
- Title: Regular Expressions for Fast-response COVID-19 Text Classification
- Title(参考訳): 高速応答型COVID-19テキスト分類のための正規表現
- Authors: Igor L. Markov, Jacqueline Liu, Adam Vagner
- Abstract要約: Facebookは、あるテキストがCOVID-19のような狭いトピックに属するかどうかを判断する。
我々は、キーワード発見の人間誘導型イテレーションを採用しているが、ラベル付きデータを必要としない。
正規表現は複数のプラットフォームからの低レイテンシクエリを可能にする。
- 参考スコア(独自算出の注目度): 1.1279808969568252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classifiers are at the core of many NLP applications and use a variety
of algorithmic approaches and software. This paper describes how Facebook
determines if a given piece of text - anything from a hashtag to a post -
belongs to a narrow topic such as COVID-19. To fully define a topic and
evaluate classifier performance we employ human-guided iterations of keyword
discovery, but do not require labeled data. For COVID-19, we build two sets of
regular expressions: (1) for 66 languages, with 99% precision and recall >50%,
(2) for the 11 most common languages, with precision >90% and recall >90%.
Regular expressions enable low-latency queries from multiple platforms.
Response to challenges like COVID-19 is fast and so are revisions. Comparisons
to a DNN classifier show explainable results, higher precision and recall, and
less overfitting. Our learnings can be applied to other narrow-topic
classifiers.
- Abstract(参考訳): テキスト分類器は多くのNLPアプリケーションの中心にあり、様々なアルゴリズムアプローチとソフトウェアを使用します。
本稿は、Facebookが特定のテキスト – ハッシュタグからポストベロンまで – から、COVID-19のような狭いトピックに至るまで – をどのように判断するかを説明する。
トピックを完全に定義し、分類器の性能を評価するために、キーワード発見の人間誘導反復を用いるが、ラベル付きデータを必要としない。
新型コロナウイルス(covid-19)に対して,(1)精度99%の66ヶ国語,(2)一般言語11ヶ国語,精度90%以上,リコール90%の2種類の正規表現を構築した。
正規表現は複数のプラットフォームからの低レイテンシクエリを可能にする。
COVID-19などの課題への対応は迅速であり、改訂も行われている。
DNN分類器との比較は、説明可能な結果、より高い精度とリコール、およびより少ないオーバーフィットを示す。
我々の学習は他の狭義の分類器にも適用できる。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - JARVix at SemEval-2022 Task 2: It Takes One to Know One? Idiomaticity
Detection using Zero and One Shot Learning [7.453634424442979]
本稿では,二項分類を用いた慣用的表現の検出に焦点をあてる。
我々は、英語とポルトガル語でMWEのリテラルと慣用的な使用法からなるデータセットを使用する。
両設定で複数の大規模言語モデルを訓練し、ゼロショット設定では0.73のF1スコア(マクロ)、ワンショット設定では0.85のF1スコア(マクロ)を達成する。
論文 参考訳(メタデータ) (2022-02-04T21:17:41Z) - Language Identification with a Reciprocal Rank Classifier [1.4467794332678539]
ドメインの変更やトレーニングデータの欠如に頑健な軽量で効果的な言語識別子を提案する。
2つの22言語データセットでこれをテストし、ウィキペディアのトレーニングセットからTwitterのテストセットへのゼロエフォートドメイン適応を実証する。
論文 参考訳(メタデータ) (2021-09-20T22:10:07Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Novel Keyword Extraction and Language Detection Approaches [0.6445605125467573]
ファジィ言語マッチングのための高速な文字列トークン化手法を提案する。
処理時間の83.6%削減を実験的に実証した。
我々は、Accept-LanguageヘッダがIPアドレスよりも分類にマッチする確率が14%高いことを発見した。
論文 参考訳(メタデータ) (2020-09-24T17:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。