論文の概要: Improving Search Suggestions for Alphanumeric Queries
- arxiv url: http://arxiv.org/abs/2604.07364v1
- Date: Wed, 01 Apr 2026 19:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.418741
- Title: Improving Search Suggestions for Alphanumeric Queries
- Title(参考訳): Alphanumeric Queriesの検索提案の改善
- Authors: Samarth Agrawal, Jayanth Yetukuri, Diptesh Kanojia, Qunzhi Zhou, Zhe Wu,
- Abstract要約: 本稿では,各アルファ数値列を固定長バイナリベクトルとして符号化する学習自由な文字レベル検索フレームワークを提案する。
この表現は、ハミング距離を介して効率的な類似性を可能にし、大きな識別子コーパス上で最も近い近接検索をサポートする。
- 参考スコア(独自算出の注目度): 13.198808921085943
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Alphanumeric identifiers such as manufacturer part numbers (MPNs), SKUs, and model codes are ubiquitous in e-commerce catalogs and search. These identifiers are sparse, non linguistic, and highly sensitive to tokenization and typographical variation, rendering conventional lexical and embedding based retrieval methods ineffective. We propose a training free, character level retrieval framework that encodes each alphanumeric sequence as a fixed length binary vector. This representation enables efficient similarity computation via Hamming distance and supports nearest neighbor retrieval over large identifier corpora. An optional re-ranking stage using edit distance refines precision while preserving latency guarantees. The method offers a practical and interpretable alternative to learned dense retrieval models, making it suitable for production deployment in search suggestion generation systems. Significant gains in business metrics in the A/B test further prove utility of our approach.
- Abstract(参考訳): 製造業者番号(MPN)、SKU、モデルコードといった数字の識別子は、eコマースのカタログや検索においてユビキタスである。
これらの識別子はスパースであり、非言語的であり、トークン化やタイポグラフィーの変化に非常に敏感であり、従来の語彙や埋め込みに基づく検索手法は効果がない。
本稿では,各アルファ数値列を固定長バイナリベクトルとして符号化する学習自由な文字レベル検索フレームワークを提案する。
この表現は、ハミング距離による効率的な類似性計算を可能にし、大きな識別子コーパス上の近接検索をサポートする。
編集距離を用いた任意の再ランクステージは、レイテンシ保証を維持しながら精度を向上する。
本手法は,学習した高密度検索モデルに対して実用的で解釈可能な代替手段を提供し,探索提案生成システムにおける生産展開に適した方法である。
A/Bテストにおけるビジネスメトリクスの顕著な増加は、私たちのアプローチの有用性をさらに証明します。
関連論文リスト
- LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting [118.93173826110815]
高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
我々は、LRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築するために、拡張検出モジュールを軽量な認識ブランチに統合する。
論文 参考訳(メタデータ) (2025-11-08T03:08:03Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations [22.48125906976824]
カスケード型組織的ビ表現型ジェネリック検索フレームワークを導入し,カスケード処理を通じてスパース意味IDと高密度ベクトルを統合する。
本手法は,これらの表現をまずスパースIDを生成して交互に生成し,高密度ベクトルの生成を支援する条件として機能する。
推論の間、COBRAは粗大な戦略を採用し、スパースID生成から始まり、生成モデルを介してそれらを密度の高いベクトルに精製する。
論文 参考訳(メタデータ) (2025-03-04T10:00:05Z) - DReSD: Dense Retrieval for Speculative Decoding [8.220217498103315]
投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。
我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。
Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-02-21T16:32:28Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Machine Translation Decoding beyond Beam Search [43.27883368285612]
ビームサーチは自動回帰機械翻訳モデルの復号化手法である。
我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。
モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
論文 参考訳(メタデータ) (2021-04-12T10:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。