論文の概要: UniDex: Rethinking Search Inverted Indexing with Unified Semantic Modeling
- arxiv url: http://arxiv.org/abs/2509.24632v1
- Date: Mon, 29 Sep 2025 11:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.946472
- Title: UniDex: Rethinking Search Inverted Indexing with Unified Semantic Modeling
- Title(参考訳): UniDex: 統一セマンティックモデリングによる検索逆インデックス再考
- Authors: Zan Li, Jiahui Chen, Yuan Chai, Xiaoze Jiang, Xiaohua Qi, Zhiheng Qin, Runbin Zhou, Shun Zuo, Guangchao Hao, Kefeng Wang, Jingshan Lv, Yupeng Huang, Xiao Liang, Han Li,
- Abstract要約: 逆索引付けは、伝統的に現代の検索システムの基盤であり、クエリとドキュメントの関連性を決定するために正確な項マッチングを活用してきた。
Inverted indexing に革命をもたらすために統合意味モデリングを利用する新しいモデルベース手法である UniDex を提案する。
提案手法には,クエリとドキュメントをセマンティックIDにマッピングして検索を改善するUniTouchと,セマンティックマッチングを用いて検索結果を効率的にランク付けするUniRankの2つの重要なコンポーネントが含まれている。
- 参考スコア(独自算出の注目度): 13.460255805106124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverted indexing has traditionally been a cornerstone of modern search systems, leveraging exact term matches to determine relevance between queries and documents. However, this term-based approach often emphasizes surface-level token overlap, limiting the system's generalization capabilities and retrieval effectiveness. To address these challenges, we propose UniDex, a novel model-based method that employs unified semantic modeling to revolutionize inverted indexing. UniDex replaces complex manual designs with a streamlined architecture, enhancing semantic generalization while reducing maintenance overhead. Our approach involves two key components: UniTouch, which maps queries and documents into semantic IDs for improved retrieval, and UniRank, which employs semantic matching to rank results effectively. Through large-scale industrial datasets and real-world online traffic assessments, we demonstrate that UniDex significantly improves retrieval capabilities, marking a paradigm shift from term-based to model-based indexing. Our deployment within Kuaishou's short-video search systems further validates UniDex's practical effectiveness, serving hundreds of millions of active users efficiently.
- Abstract(参考訳): 逆索引付けは、伝統的に現代の検索システムの基盤であり、クエリとドキュメントの関連性を決定するために正確な項マッチングを活用してきた。
しかし、この用語に基づくアプローチは、しばしば表面レベルのトークン重複を強調し、システムの一般化能力と検索効率を制限している。
これらの課題に対処するため、逆インデックス化に革命をもたらすために統一意味モデリングを利用する新しいモデルベース手法UniDexを提案する。
UniDexは複雑な手動設計を合理化されたアーキテクチャに置き換え、セマンティック・ジェネリゼーションを強化し、メンテナンスのオーバーヘッドを減らした。
提案手法には,クエリとドキュメントをセマンティックIDにマッピングして検索を改善するUniTouchと,セマンティックマッチングを用いて検索結果を効率的にランク付けするUniRankの2つの重要なコンポーネントが含まれている。
大規模産業データセットと実世界のオンライントラフィックアセスメントを通じて、UniDexは検索能力を大幅に改善し、項ベースからモデルベースインデックスへのパラダイムシフトを示す。
クアイシュ州のショートビデオ検索システムにおける我々の展開は、UniDexの実用性をさらに検証し、数億のアクティブユーザーを効率的に提供しています。
関連論文リスト
- UniSearch: Rethinking Search System with a Unified Generative Architecture [20.448690421956023]
UniSearchはKuaishou Searchのための統合された生成検索フレームワークである。
UniSearchは、カスケードパイプラインを、検索ジェネレータとビデオジェネレータを統合するエンドツーエンドアーキテクチャに置き換える。
産業規模のデータセットに関する大規模な実験と、短いビデオとライブ検索のシナリオにおけるオンラインA/Bテストは、UniSearchの強力な有効性とデプロイメントの可能性を示している。
論文 参考訳(メタデータ) (2025-09-08T17:08:26Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。