論文の概要: Domain specificity and data efficiency in typo tolerant spell checkers:
the case of search in online marketplaces
- arxiv url: http://arxiv.org/abs/2308.01976v1
- Date: Thu, 3 Aug 2023 18:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:50:32.143929
- Title: Domain specificity and data efficiency in typo tolerant spell checkers:
the case of search in online marketplaces
- Title(参考訳): typo耐性スペルチェッカーにおけるドメイン特異性とデータ効率:オンライン市場における検索の場合
- Authors: Dayananda Ubrangala, Juhi Sharma, Ravi Prasad Kondapalli, Kiran R,
Amit Agarwala, Laurent Bou\'e
- Abstract要約: アノテーション付き型データの欠如に対処するデータ拡張手法を提案する。
我々は、コンテキスト限定のドメイン固有の埋め込みを学ぶために、リカレントニューラルネットワークを訓練する。
これらの埋め込みは、Microsoft AppSourceマーケットプレイスのリアルタイム参照APIにデプロイされる。
- 参考スコア(独自算出の注目度): 3.9449765313773684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typographical errors are a major source of frustration for visitors of online
marketplaces. Because of the domain-specific nature of these marketplaces and
the very short queries users tend to search for, traditional spell cheking
solutions do not perform well in correcting typos. We present a data
augmentation method to address the lack of annotated typo data and train a
recurrent neural network to learn context-limited domain-specific embeddings.
Those embeddings are deployed in a real-time inferencing API for the Microsoft
AppSource marketplace to find the closest match between a misspelled user query
and the available product names. Our data efficient solution shows that
controlled high quality synthetic data may be a powerful tool especially
considering the current climate of large language models which rely on
prohibitively huge and often uncontrolled datasets.
- Abstract(参考訳): タイポグラフィーエラーは、オンラインマーケットの訪問者にとってフラストレーションの主な原因である。
これらのマーケットプレースにはドメイン固有の性質があり、ユーザが検索するクエリが極めて短いため、従来のスペルチェキングソリューションはタイプミスの修正ではうまく機能しない。
本稿では、アノテーション付き型データの欠如に対処し、コンテキスト限定のドメイン固有埋め込みを学習するために繰り返しニューラルネットワークを訓練するデータ拡張手法を提案する。
これらの埋め込みは、Microsoft AppSourceマーケットプレイスのリアルタイム参照APIにデプロイされ、ミススペルされたユーザクエリと利用可能な製品名との最も近いマッチングを見つける。
我々のデータ効率のよいソリューションは、制御された高品質な合成データは、特に巨大でしばしば制御されていないデータセットに依存する大規模言語モデルの現在の気候を考えると、強力なツールであることを示している。
関連論文リスト
- Misspellings in Natural Language Processing: A survey [52.419589623702336]
デジタル通信では ミススペルがユビキタスになりました
我々は科学的な問題としてミススペルの歴史を再構築する。
NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
論文 参考訳(メタデータ) (2025-01-28T10:26:04Z) - A Transfer Learning Framework for Anomaly Detection in Multivariate IoT Traffic Data [6.229535970620059]
本稿では,時系列データセットにおける異常検出のための移動学習モデルを提案する。
従来の手法とは異なり、我々の手法はソースまたはターゲットドメインのラベル付きデータを必要としない。
新たな侵入検出データセットの実証評価は,我々のモデルが既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-26T02:03:49Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation [0.0]
低リソースのデータは、ニューラルマシン翻訳にとって重要な課題である。
我々は、新しい教師なしデータ選択手法「Capturing Perplexing Named Entities」を導入する。
提案手法は,異なる領域にまたがるトレーニング効率データを特定するための堅牢なガイダンスとして機能した。
論文 参考訳(メタデータ) (2024-02-29T15:38:28Z) - Robust Domain Misinformation Detection via Multi-modal Feature Alignment [49.89164555394584]
マルチモーダルな誤情報検出のための頑健なドメインとクロスモーダルなアプローチを提案する。
テキストと視覚の共役分布を整列させることにより、ドメインシフトを低減する。
また,ドメイン一般化のアプリケーションシナリオを同時に検討するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-24T07:06:16Z) - Contextual Multilingual Spellchecker for User Queries [1.8951798180495294]
非常に高速でスケーラブルな多言語スペルチェッカーを構築しています。
私たちのスペルはAdobe製品の検索に使われ、様々なアプリケーションでオートコンプリートに使われています。
論文 参考訳(メタデータ) (2023-05-01T20:29:59Z) - A Universal Error Measure for Input Predictions Applied to Online Graph
Problems [57.58926849872494]
本稿では,入力予測における誤差の定量化のための新しい尺度を提案する。
この尺度は、予測されていない要求と予測されていない実際の要求によるエラーをキャプチャする。
論文 参考訳(メタデータ) (2022-05-25T15:24:03Z) - General and Domain Adaptive Chinese Spelling Check with Error Consistent
Pretraining [11.428660127879887]
我々は,事前学習のためのデータを生成するために,エラー一貫性マスキング戦略を採用した競争力のあるジェネラルスペルECSpellを開発した。
入力方式の一般的な実践にヒントを得て,ゼロショット領域適応問題に対処する変更可能なユーザ辞書を提案する。
論文 参考訳(メタデータ) (2022-03-21T12:49:44Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。