Fugu-MT 論文翻訳(概要): Novel Keyword Extraction and Language Detection Approaches

論文の概要: Novel Keyword Extraction and Language Detection Approaches

arxiv url: http://arxiv.org/abs/2009.11832v1
Date: Thu, 24 Sep 2020 17:28:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-15 04:48:03.905612
Title: Novel Keyword Extraction and Language Detection Approaches
Title（参考訳）: 新しいキーワード抽出と言語検出手法
Authors: Malgorzata Pikies, Andronicus Riyono, Junade Ali
Abstract要約: ファジィ言語マッチングのための高速な文字列トークン化手法を提案する。処理時間の83.6%削減を実験的に実証した。我々は、Accept-LanguageヘッダがIPアドレスよりも分類にマッチする確率が14%高いことを発見した。
参考スコア（独自算出の注目度）: 0.6445605125467573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fuzzy string matching and language classification are important tools in Natural Language Processing pipelines, this paper provides advances in both areas. We propose a fast novel approach to string tokenisation for fuzzy language matching and experimentally demonstrate an 83.6% decrease in processing time with an estimated improvement in recall of 3.1% at the cost of a 2.6% decrease in precision. This approach is able to work even where keywords are subdivided into multiple words, without needing to scan character-to-character. So far there has been little work considering using metadata to enhance language classification algorithms. We provide observational data and find the Accept-Language header is 14% more likely to match the classification than the IP Address.
Abstract（参考訳）: ファジィ文字列マッチングと言語分類は,自然言語処理パイプラインにおいて重要なツールである。ファジィ言語マッチングのための高速な文字列トークン化手法を提案し, 精度2.6%のコストで3.1%のリコール率を推定し, 処理時間の83.6%削減を実験的に実証した。このアプローチは、キーワードが複数の単語に分割された場合でも、文字対文字をスキャンする必要がない。これまでのところ、メタデータを使って言語分類アルゴリズムを強化する作業はほとんど行われていない。観察データを提供し,ipアドレスよりもaccept-languageヘッダの方が14%高い確率で分類できることを確認した。

関連論文リスト

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文参考訳（メタデータ） (2025-11-24T17:17:40Z)
Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data [59.30098850050971]
言語間の変換学習は、ラベル付きデータに制限のあるタスクのパフォーマンスを向上させることができる。我々は、最寄りの検索を利用して、ターゲット言語における最小ラベル付きデータを増強する。提案手法を8言語で評価し,対象言語データのみに基づいてトレーニングしたモデルよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-05-20T12:25:33Z)
CharSS: Character-Level Transformer Model for Sanskrit Word Segmentation [39.08623113730563]
インド語のサブワードトークンは本質的に意味を持ち、それらを分離することでNLPタスクを強化することができる。我々はサンスクリット語(CharSS)の文字レベル変換モデルを利用する新しい手法を提案する。提案手法の性能を既存手法と比較するために,3つのベンチマークデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2024-07-08T18:50:13Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
Graph-based Clustering for Detecting Semantic Change Across Time and Languages [10.058655884092094]
本稿では,高頻度・低周波両方の単語知覚におけるニュアンス変化を時間的・言語的に捉えたグラフベースのクラスタリング手法を提案する。提案手法は,4言語にわたるSemEval 2020バイナリ分類タスクにおいて,従来のアプローチを大幅に上回っている。
論文参考訳（メタデータ） (2024-02-01T21:27:19Z)
T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文参考訳（メタデータ） (2023-06-08T07:33:22Z)
Better Than Whitespace: Information Retrieval for Languages without Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文参考訳（メタデータ） (2022-10-11T14:32:46Z)
A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文参考訳（メタデータ） (2021-06-29T05:37:57Z)
Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文参考訳（メタデータ） (2020-10-06T15:21:08Z)
Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。 i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文参考訳（メタデータ） (2020-08-20T17:58:56Z)
Massively Multilingual Document Alignment with Cross-lingual Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文参考訳（メタデータ） (2020-01-31T05:14:16Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)
Machine Learning Approaches for Amharic Parts-of-speech Tagging [0.0]
アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
論文参考訳（メタデータ） (2020-01-10T06:40:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。