論文の概要: FastSpell: the LangId Magic Spell
- arxiv url: http://arxiv.org/abs/2404.08345v1
- Date: Fri, 12 Apr 2024 09:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:26:16.027941
- Title: FastSpell: the LangId Magic Spell
- Title(参考訳): FastSpell: LangId Magic Spell
- Authors: Marta Bañón, Jaume Zaragoza-Bernabeu, Gema Ramírez-Sánchez, Sergio Ortiz-Rojas,
- Abstract要約: 本稿では,fastTextとHunspellを組み合わせた言語識別子であるFastSpellを紹介する。
我々は、FastSpellが、類似言語の識別を改善するだけでなく、他のツールによって無視される新しい言語を特定するためにも有用であることを示す。
- 参考スコア(独自算出の注目度): 0.35525000234198584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language identification is a crucial component in the automated production of language resources, particularly in multilingual and big data contexts. However, commonly used language identifiers struggle to differentiate between similar or closely-related languages. This paper introduces FastSpell, a language identifier that combines fastText (a pre-trained language identifier tool) and Hunspell (a spell checker) with the aim of having a refined second-opinion before deciding which language should be assigned to a text. We provide a description of the FastSpell algorithm along with an explanation on how to use and configure it. To that end, we motivate the need of such a tool and present a benchmark including some popular language identifiers evaluated during the development of FastSpell. We show how FastSpell is useful not only to improve identification of similar languages, but also to identify new ones ignored by other tools.
- Abstract(参考訳): 言語識別は、特に多言語およびビッグデータのコンテキストにおいて、言語リソースの自動生成において重要な要素である。
しかし、一般的に使われている言語識別子は、類似言語と近縁言語を区別するのに苦労する。
本稿では,FastSpellについて紹介する。FastText(事前訓練済みの言語識別子ツール)とHunspell(スペルチェッカー)を組み合わせた言語識別子で,テキストにどの言語を割り当てるべきかを決定する前に,洗練された第2のオピニオンを持つことを目的としている。
我々は、FastSpellアルゴリズムの使い方や構成についての説明とともに、FastSpellアルゴリズムの説明を提供する。
そのために、そのようなツールの必要性を動機付け、FastSpellの開発中に評価された人気のある言語識別子を含むベンチマークを示す。
我々は、FastSpellが、類似言語の識別を改善するだけでなく、他のツールによって無視される新しい言語を特定するためにも有用であることを示す。
関連論文リスト
- Development and Benchmarking of Multilingual Code Clone Detector [2.253851493296371]
多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語のサポートを追加しやすくする。
ANTLR生成に基づく多言語コードブロック抽出法を提案し、多言語コードクローン検出器(MSCCD)を実装した。
最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。
論文 参考訳(メタデータ) (2024-09-10T03:08:33Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Language Lexicons for Hindi-English Multilingual Text Processing [0.0]
現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。
ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
論文 参考訳(メタデータ) (2021-06-29T05:42:54Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - A reproduction of Apple's bi-directional LSTM models for language
identification in short strings [8.430502131775722]
Appleが簡単にスケッチした言語識別アーキテクチャを,ブログ記事で再現した。
その言語識別ミスは、関連する言語間の混乱によるものです。
論文 参考訳(メタデータ) (2021-02-11T21:46:43Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Detect Language of Transliterated Texts [0.0]
他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。
特徴抽出のための言語識別システム(LID)を提案する。
単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。
論文 参考訳(メタデータ) (2020-04-26T10:28:02Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。