論文の概要: Language Identification with a Reciprocal Rank Classifier
- arxiv url: http://arxiv.org/abs/2109.09862v1
- Date: Mon, 20 Sep 2021 22:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:38:04.103447
- Title: Language Identification with a Reciprocal Rank Classifier
- Title(参考訳): 相互ランク分類器を用いた言語識別
- Authors: Dominic Widdows and Chris Brew
- Abstract要約: ドメインの変更やトレーニングデータの欠如に頑健な軽量で効果的な言語識別子を提案する。
2つの22言語データセットでこれをテストし、ウィキペディアのトレーニングセットからTwitterのテストセットへのゼロエフォートドメイン適応を実証する。
- 参考スコア(独自算出の注目度): 1.4467794332678539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language identification is a critical component of language processing
pipelines (Jauhiainen et al.,2019) and is not a solved problem in real-world
settings. We present a lightweight and effective language identifier that is
robust to changes of domain and to the absence of copious training data.
The key idea for classification is that the reciprocal of the rank in a
frequency table makes an effective additive feature score, hence the term
Reciprocal Rank Classifier (RRC). The key finding for language classification
is that ranked lists of words and frequencies of characters form a sufficient
and robust representation of the regularities of key languages and their
orthographies.
We test this on two 22-language data sets and demonstrate zero-effort domain
adaptation from a Wikipedia training set to a Twitter test set. When trained on
Wikipedia but applied to Twitter the macro-averaged F1-score of a
conventionally trained SVM classifier drops from 90.9% to 77.7%. By contrast,
the macro F1-score of RRC drops only from 93.1% to 90.6%. These classifiers are
compared with those from fastText and langid. The RRC performs better than
these established systems in most experiments, especially on short Wikipedia
texts and Twitter.
The RRC classifier can be improved for particular domains and conversational
situations by adding words to the ranked lists. Using new terms learned from
such conversations, we demonstrate a further 7.9% increase in accuracy of
sample message classification, and 1.7% increase for conversation
classification. Surprisingly, this made results on Twitter data slightly worse.
The RRC classifier is available as an open source Python package
(https://github.com/LivePersonInc/lplangid).
- Abstract(参考訳): 言語識別は言語処理パイプライン(Jauhiainen et al.,2019)の重要なコンポーネントであり、現実世界の設定では解決されていない。
ドメインの変更や不適切なトレーニングデータの欠如に対して堅牢な,軽量で効果的な言語識別子を提案する。
分類の鍵となる考え方は、周波数表におけるランクの相互関係が効果的な付加的特徴点スコア(英語版)(reciprocal rank classificationifier, rrc)となることである。
言語分類の鍵となる発見は、単語のランク付けされたリストと文字の頻度が、キー言語とその正書法の規則性の十分かつ堅牢な表現を形成することである。
2つの22言語データセットでこれをテストし、wikipediaトレーニングセットからtwitterテストセットへのゼロエフォートドメイン適応を示す。
wikipediaでトレーニングしながらtwitterに適用すると、従来訓練されたsvm分類器のマクロ平均f1-scoreは90.9%から77.7%に低下する。
対照的に、RCのマクロF1スコアは93.1%から90.6%に低下する。
これらの分類器はfastTextやlangidと比較される。
RRCは、ほとんどの実験において、特にウィキペディアの短いテキストやTwitterにおいて、これらの確立されたシステムよりも優れた性能を発揮する。
RRC分類器は、ランクリストに単語を追加することにより、特定のドメインや会話状況を改善することができる。
このような会話から学習した新しい用語を用いて、サンプルメッセージ分類の精度が7.9%向上し、会話分類の1.7%向上した。
驚くべきことに、twitterのデータの結果はやや悪化した。
RRC分類器はオープンソースPythonパッケージ(https://github.com/LivePersonInc/lplangid)として利用できる。
関連論文リスト
- Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - JARVix at SemEval-2022 Task 2: It Takes One to Know One? Idiomaticity
Detection using Zero and One Shot Learning [7.453634424442979]
本稿では,二項分類を用いた慣用的表現の検出に焦点をあてる。
我々は、英語とポルトガル語でMWEのリテラルと慣用的な使用法からなるデータセットを使用する。
両設定で複数の大規模言語モデルを訓練し、ゼロショット設定では0.73のF1スコア(マクロ)、ワンショット設定では0.85のF1スコア(マクロ)を達成する。
論文 参考訳(メタデータ) (2022-02-04T21:17:41Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Regular Expressions for Fast-response COVID-19 Text Classification [1.1279808969568252]
Facebookは、あるテキストがCOVID-19のような狭いトピックに属するかどうかを判断する。
我々は、キーワード発見の人間誘導型イテレーションを採用しているが、ラベル付きデータを必要としない。
正規表現は複数のプラットフォームからの低レイテンシクエリを可能にする。
論文 参考訳(メタデータ) (2021-02-18T17:48:49Z) - Enhanced Offensive Language Detection Through Data Augmentation [2.2022484178680872]
ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
データセットはクラス不均衡に悩まされており、特定のラベルは他のクラスと比較して非常に稀である。
本稿では,不均衡データと低リソースデータの分類性能を向上させる世代別データ拡張手法であるDagerを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:45:16Z) - Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media [2.9008108937701333]
埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2020-07-20T11:54:43Z) - Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文 参考訳(メタデータ) (2020-01-07T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。