論文の概要: Contextual Multilingual Spellchecker for User Queries
- arxiv url: http://arxiv.org/abs/2305.01082v2
- Date: Wed, 14 Jun 2023 14:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 01:08:43.490336
- Title: Contextual Multilingual Spellchecker for User Queries
- Title(参考訳): ユーザクエリのためのコンテキスト多言語スペルチェッカ
- Authors: Sanat Sharma, Josep Valls-Vargas, Tracy Holloway King, Francois
Guerin, Chirag Arora
- Abstract要約: 非常に高速でスケーラブルな多言語スペルチェッカーを構築しています。
私たちのスペルはAdobe製品の検索に使われ、様々なアプリケーションでオートコンプリートに使われています。
- 参考スコア(独自算出の注目度): 1.8951798180495294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spellchecking is one of the most fundamental and widely used search features.
Correcting incorrectly spelled user queries not only enhances the user
experience but is expected by the user. However, most widely available
spellchecking solutions are either lower accuracy than state-of-the-art
solutions or too slow to be used for search use cases where latency is a key
requirement. Furthermore, most innovative recent architectures focus on English
and are not trained in a multilingual fashion and are trained for spell
correction in longer text, which is a different paradigm from spell correction
for user queries, where context is sparse (most queries are 1-2 words long).
Finally, since most enterprises have unique vocabularies such as product names,
off-the-shelf spelling solutions fall short of users' needs. In this work, we
build a multilingual spellchecker that is extremely fast and scalable and that
adapts its vocabulary and hence speller output based on a specific product's
needs. Furthermore, our speller out-performs general purpose spellers by a wide
margin on in-domain datasets. Our multilingual speller is used in search in
Adobe products, powering autocomplete in various applications.
- Abstract(参考訳): Spellcheckingは、最も基本的で広く使われている検索機能の一つだ。
不正な綴りのユーザクエリの修正は、ユーザエクスペリエンスの向上だけでなく、ユーザの期待も高めます。
しかしながら、最も広く利用されているスペルチェックソリューションは、最先端のソリューションよりも精度が低いか、レイテンシが重要な要件である検索ユースケースで使用するには遅すぎるかのどちらかである。
さらに、最近の最も革新的なアーキテクチャは英語に重点を置いており、多言語で訓練されておらず、長文の綴り訂正のために訓練されている。
最後に、ほとんどの企業は製品名のような独自の語彙を持っているため、既製のスペルソリューションはユーザのニーズに届かない。
本研究では,非常に高速でスケーラブルで,その語彙に適応し,特定の製品のニーズに応じた綴り出力を行う多言語スペルチェッカを構築した。
さらに、スペルはドメイン内のデータセットに対して広いマージンで汎用スペルを上回ります。
私たちの多言語スペルはAdobe製品の検索に使われ、様々なアプリケーションでオートコンプリートに使われています。
関連論文リスト
- Neural spell-checker: Beyond words with synthetic data generation [0.0]
スペルチェックは、テキスト中のミススペルされた単語を識別することでコミュニケーションを強化する貴重なツールである。
近年のディープラーニングの改良により、従来のスペルチェッカーを新たな機能で改善する新たな機会が開けている。
我々は2つの新しいスペルチェッカーを提示、比較し、それらを合成、学習、より一般的なSloveneデータセット上で評価する。
論文 参考訳(メタデータ) (2024-10-30T23:51:01Z) - Multi-teacher Distillation for Multilingual Spelling Correction [21.69493463814022]
スペルエラーは、すべての言語、および複数の言語を使用するクエリで修正する必要がある。
本稿では,この課題を多教師蒸留を用いて解決する。
オープンソースデータと,世界規模の検索サービスからのユーザデータを用いた実験では,スペル訂正モデルに極めて効果的な結果が得られた。
論文 参考訳(メタデータ) (2023-11-20T03:44:32Z) - Domain specificity and data efficiency in typo tolerant spell checkers:
the case of search in online marketplaces [3.9449765313773684]
アノテーション付き型データの欠如に対処するデータ拡張手法を提案する。
我々は、コンテキスト限定のドメイン固有の埋め込みを学ぶために、リカレントニューラルネットワークを訓練する。
これらの埋め込みは、Microsoft AppSourceマーケットプレイスのリアルタイム参照APIにデプロイされる。
論文 参考訳(メタデータ) (2023-08-03T18:11:00Z) - Typo-Robust Representation Learning for Dense Retrieval [6.148710657178892]
現実世界の設定における密集検索の主な課題の1つは、ミススペルされた単語を含むクエリの処理である。
ミススペルクエリを扱う一般的なアプローチは、ミススペルクエリとそれらのプリスタントクエリとの差の最小化である。
ミススペルクエリとプリスタンクエリのアライメントのみに焦点を当てた既存のアプローチとは異なり,本手法は各ミススペルクエリと周辺クエリとのコントラストも改善する。
論文 参考訳(メタデータ) (2023-06-17T13:48:30Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - Keyword Embeddings for Query Suggestion [3.7900158137749322]
本稿では,科学文献に基づいて学習したキーワード提案タスクのための2つの新しいモデルを提案する。
我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。
我々は,タスクのベースラインよりも大幅に改善された,最先端の単語と文の埋め込みモデルに対する提案を評価した。
論文 参考訳(メタデータ) (2023-01-19T11:13:04Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。