論文の概要: Surface-Form Neural Sparse Retrieval: Robust Fuzzy Matching for Industrial Music Search
- arxiv url: http://arxiv.org/abs/2605.17762v1
- Date: Mon, 18 May 2026 02:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.597851
- Title: Surface-Form Neural Sparse Retrieval: Robust Fuzzy Matching for Industrial Music Search
- Title(参考訳): 表面形状ニューラルスパース検索:産業音楽検索のためのロバストファジィマッチング
- Authors: Paul Greyson, Zhichao Geng, Wei Zhang, Yang Yang,
- Abstract要約: クエリは、ミススペル、トランスポジション、音声のバリエーションによるインデックス付きメタデータから頻繁に逸脱する。
既存の学習・検索システムであるHigh Confidence Index (HCI)は、顧客の行動からクエリ・エンティティ・アソシエーションを学習する。
従来のn-gramマッチングは、この探索を可能にするが、セマンティックロバスト性や高雑音に悩まされる。
本稿では,探索効率を最大化するために,テキストフロバスト型ニューラルスパース検索システムを提案する。
- 参考スコア(独自算出の注目度): 6.820455959856271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music search at the scale of Amazon Music presents a unique challenge: queries frequently deviate from indexed metadata due to misspellings, transpositions, and phonetic variations, yet the retrieval system must operate under strict millisecond-level latency constraints. Our existing learning-to-retrieve system, the High Confidence Index (HCI), learns query-entity associations from customer behavior, relying on continual ``exploration'' to choose candidates. Traditional n-gram matching enables this exploration but suffers from poor semantic robustness and high noise, limiting the system's ability to learn from long-tail queries. In this work, we present a \textbf{robust neural sparse retrieval system} designed to maximize exploration efficiency. We adapt a state-of-the-art \textbf{inference-free} sparse retrieval architecture to the music domain, combining it with an effective \textbf{domain-specific granular subword tokenization strategy}. Our approach utilizes short-length token constraints (max 3 chars) to enforce the learning of surface-form robustness over lexical memorization. By pre-computing the neural embeddings and term expansions during the offline indexing phase, online processing is reduced to minimal tokenization and IDF weighting, achieving effectively zero latency overhead for query encoding. Evaluations on a 6M-document production corpus show an aggregate \textbf{91.4\%} recall@10 (vs. \textbf{57.7\%} for trigrams) at comparable throughput. Simulation of the HCI feedback loop demonstrates improved exploration efficiency, with \textbf{+0.8\%} higher stabilized recall than production trigrams. Ablation studies indicate that our sparse training methodology drives the performance gains, while domain-specific pretraining provides a cost-effective alternative to large-scale general-purpose pretraining.
- Abstract(参考訳): クエリは、ミススペル、トランスポジション、音声変奏によるインデックス付きメタデータから頻繁に逸脱するが、検索システムは厳密なミリ秒レベルのレイテンシ制約の下で動作しなければならない。
既存の学習・検索システムであるHigh Confidence Index (HCI)は、顧客行動からクエリ・エンテント・アソシエーションを学習し、候補の選択には「探索」を継続する。
従来のn-gramマッチングは、この探索を可能にするが、セマンティックロバスト性や高ノイズに悩まされ、ロングテールクエリから学習するシステムの能力が制限される。
そこで本研究では,探索効率を最大化するために,<textbf{robust neural sparse search system>を提案する。
我々は,現在最先端の「textbf{inference-free」スパース検索アーキテクチャを音楽領域に適用し,有効な「textbf{ domain-specificgrand subword tokenization strategy」と組み合わせた。
提案手法は,長短のトークン制約(max 3 chars)を用いて,語彙記憶による表面形状の堅牢性の学習を強制する。
オフラインインデックス化フェーズにおけるニューラル埋め込みと項拡張の事前計算により、オンライン処理は最小のトークン化とIDF重み付けに削減され、クエリエンコーディングの遅延オーバーヘッドを効果的にゼロにする。
6M文書生産コーパスの評価では, 集合 \textbf{91.4\%} recall@10 (vs。
\textbf{57.7\%} for trigrams) に匹敵するスループット。
HCIフィードバックループのシミュレーションにより, 探索効率が向上し, <textbf{+0.8\%} は生産トリグラムよりも安定リコール率が高いことがわかった。
アブレーション研究は、我々のスパーストレーニング手法がパフォーマンス向上を促進することを示し、一方、ドメイン固有のプレトレーニングは、大規模汎用プレトレーニングに代わるコスト効率の高い代替手段を提供する。
関連論文リスト
- Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction [127.64173950476702]
エージェントが直接、汎用端末ツールを用いて、生コーパスを直接検索する直接コーパス間相互作用(DCI)について検討する。
このアプローチではオフラインインデックスを必要とせず、ローカルコーパスの進化に自然に適応する。
IRベンチマークとエンドツーエンドのエージェント検索タスク全体にわたって、この単純なセットアップは、強いスパース、密度、リランクベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-05-03T19:13:11Z) - Forward Index Compression for Learned Sparse Retrieval [15.629655228398567]
我々は、全てのアルゴリズム的なフレーバーに共通するデータ構造のサイズに焦点を合わせ、インデックス全体のサイズであるフォワードインデックスのかなりの部分を構成する。
特に,検索品質や内部積計算のレイテンシを損なうことなく,フォワードインデックスのストレージフットプリントを削減する圧縮手法を提案する。
論文 参考訳(メタデータ) (2026-02-05T08:35:17Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - pEBR: A Probabilistic Approach to Embedding Based Retrieval [9.186585413958769]
埋め込みベースの検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
我々は,textbfprobabilistic textbfEmbedding-textbfBased textbfRetrieval (textbfpEBR) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。