論文の概要: Language Identification with a Reciprocal Rank Classifier
- arxiv url: http://arxiv.org/abs/2109.09862v1
- Date: Mon, 20 Sep 2021 22:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:38:04.103447
- Title: Language Identification with a Reciprocal Rank Classifier
- Title(参考訳): 相互ランク分類器を用いた言語識別
- Authors: Dominic Widdows and Chris Brew
- Abstract要約: ドメインの変更やトレーニングデータの欠如に頑健な軽量で効果的な言語識別子を提案する。
2つの22言語データセットでこれをテストし、ウィキペディアのトレーニングセットからTwitterのテストセットへのゼロエフォートドメイン適応を実証する。
- 参考スコア(独自算出の注目度): 1.4467794332678539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language identification is a critical component of language processing
pipelines (Jauhiainen et al.,2019) and is not a solved problem in real-world
settings. We present a lightweight and effective language identifier that is
robust to changes of domain and to the absence of copious training data.
The key idea for classification is that the reciprocal of the rank in a
frequency table makes an effective additive feature score, hence the term
Reciprocal Rank Classifier (RRC). The key finding for language classification
is that ranked lists of words and frequencies of characters form a sufficient
and robust representation of the regularities of key languages and their
orthographies.
We test this on two 22-language data sets and demonstrate zero-effort domain
adaptation from a Wikipedia training set to a Twitter test set. When trained on
Wikipedia but applied to Twitter the macro-averaged F1-score of a
conventionally trained SVM classifier drops from 90.9% to 77.7%. By contrast,
the macro F1-score of RRC drops only from 93.1% to 90.6%. These classifiers are
compared with those from fastText and langid. The RRC performs better than
these established systems in most experiments, especially on short Wikipedia
texts and Twitter.
The RRC classifier can be improved for particular domains and conversational
situations by adding words to the ranked lists. Using new terms learned from
such conversations, we demonstrate a further 7.9% increase in accuracy of
sample message classification, and 1.7% increase for conversation
classification. Surprisingly, this made results on Twitter data slightly worse.
The RRC classifier is available as an open source Python package
(https://github.com/LivePersonInc/lplangid).
- Abstract(参考訳): 言語識別は言語処理パイプライン(Jauhiainen et al.,2019)の重要なコンポーネントであり、現実世界の設定では解決されていない。
ドメインの変更や不適切なトレーニングデータの欠如に対して堅牢な,軽量で効果的な言語識別子を提案する。
分類の鍵となる考え方は、周波数表におけるランクの相互関係が効果的な付加的特徴点スコア(英語版)(reciprocal rank classificationifier, rrc)となることである。
言語分類の鍵となる発見は、単語のランク付けされたリストと文字の頻度が、キー言語とその正書法の規則性の十分かつ堅牢な表現を形成することである。
2つの22言語データセットでこれをテストし、wikipediaトレーニングセットからtwitterテストセットへのゼロエフォートドメイン適応を示す。
wikipediaでトレーニングしながらtwitterに適用すると、従来訓練されたsvm分類器のマクロ平均f1-scoreは90.9%から77.7%に低下する。
対照的に、RCのマクロF1スコアは93.1%から90.6%に低下する。
これらの分類器はfastTextやlangidと比較される。
RRCは、ほとんどの実験において、特にウィキペディアの短いテキストやTwitterにおいて、これらの確立されたシステムよりも優れた性能を発揮する。
RRC分類器は、ランクリストに単語を追加することにより、特定のドメインや会話状況を改善することができる。
このような会話から学習した新しい用語を用いて、サンプルメッセージ分類の精度が7.9%向上し、会話分類の1.7%向上した。
驚くべきことに、twitterのデータの結果はやや悪化した。
RRC分類器はオープンソースPythonパッケージ(https://github.com/LivePersonInc/lplangid)として利用できる。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - JARVix at SemEval-2022 Task 2: It Takes One to Know One? Idiomaticity
Detection using Zero and One Shot Learning [7.453634424442979]
本稿では,二項分類を用いた慣用的表現の検出に焦点をあてる。
我々は、英語とポルトガル語でMWEのリテラルと慣用的な使用法からなるデータセットを使用する。
両設定で複数の大規模言語モデルを訓練し、ゼロショット設定では0.73のF1スコア(マクロ)、ワンショット設定では0.85のF1スコア(マクロ)を達成する。
論文 参考訳(メタデータ) (2022-02-04T21:17:41Z) - Regular Expressions for Fast-response COVID-19 Text Classification [1.1279808969568252]
Facebookは、あるテキストがCOVID-19のような狭いトピックに属するかどうかを判断する。
我々は、キーワード発見の人間誘導型イテレーションを採用しているが、ラベル付きデータを必要としない。
正規表現は複数のプラットフォームからの低レイテンシクエリを可能にする。
論文 参考訳(メタデータ) (2021-02-18T17:48:49Z) - Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media [2.9008108937701333]
埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2020-07-20T11:54:43Z) - Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文 参考訳(メタデータ) (2020-01-07T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。