論文の概要: Novel Keyword Extraction and Language Detection Approaches
- arxiv url: http://arxiv.org/abs/2009.11832v1
- Date: Thu, 24 Sep 2020 17:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:48:03.905612
- Title: Novel Keyword Extraction and Language Detection Approaches
- Title(参考訳): 新しいキーワード抽出と言語検出手法
- Authors: Malgorzata Pikies, Andronicus Riyono, Junade Ali
- Abstract要約: ファジィ言語マッチングのための高速な文字列トークン化手法を提案する。
処理時間の83.6%削減を実験的に実証した。
我々は、Accept-LanguageヘッダがIPアドレスよりも分類にマッチする確率が14%高いことを発見した。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fuzzy string matching and language classification are important tools in
Natural Language Processing pipelines, this paper provides advances in both
areas. We propose a fast novel approach to string tokenisation for fuzzy
language matching and experimentally demonstrate an 83.6% decrease in
processing time with an estimated improvement in recall of 3.1% at the cost of
a 2.6% decrease in precision. This approach is able to work even where keywords
are subdivided into multiple words, without needing to scan
character-to-character. So far there has been little work considering using
metadata to enhance language classification algorithms. We provide
observational data and find the Accept-Language header is 14% more likely to
match the classification than the IP Address.
- Abstract(参考訳): ファジィ文字列マッチングと言語分類は,自然言語処理パイプラインにおいて重要なツールである。
ファジィ言語マッチングのための高速な文字列トークン化手法を提案し, 精度2.6%のコストで3.1%のリコール率を推定し, 処理時間の83.6%削減を実験的に実証した。
このアプローチは、キーワードが複数の単語に分割された場合でも、文字対文字をスキャンする必要がない。
これまでのところ、メタデータを使って言語分類アルゴリズムを強化する作業はほとんど行われていない。
観察データを提供し,ipアドレスよりもaccept-languageヘッダの方が14%高い確率で分類できることを確認した。
関連論文リスト
- CharSS: Character-Level Transformer Model for Sanskrit Word Segmentation [39.08623113730563]
インド語のサブワードトークンは本質的に意味を持ち、それらを分離することでNLPタスクを強化することができる。
我々はサンスクリット語(CharSS)の文字レベル変換モデルを利用する新しい手法を提案する。
提案手法の性能を既存手法と比較するために,3つのベンチマークデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-07-08T18:50:13Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - Machine Learning Approaches for Amharic Parts-of-speech Tagging [0.0]
アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。
この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
論文 参考訳(メタデータ) (2020-01-10T06:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。