論文の概要: MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2007.01510v1
- Date: Fri, 3 Jul 2020 06:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:53:00.346396
- Title: MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks
- Title(参考訳): MIRA:ディープニューラルネットワークを用いたWebスケール文書検索におけるマルチインテンションコクリック情報の活用
- Authors: Yusi Zhang, Chuanjie Liu, Angen Luo, Hui Xue, Xuan Shan, Yuxiang Luo,
Yiqian Xia, Yuanchi Yan, Haidong Wang
- Abstract要約: 産業Web検索におけるディープリコールモデルの問題について検討する。
ウェブスケールのマルチインテンション共同クリック文書グラフを提案する。
また,Bertとグラフアテンションネットワークに基づく符号化フレームワークMIRAを提案する。
- 参考スコア(独自算出の注目度): 5.963438927897287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of deep recall model in industrial web search, which is,
given a user query, retrieve hundreds of most relevance documents from billions
of candidates. The common framework is to train two encoding models based on
neural embedding which learn the distributed representations of queries and
documents separately and match them in the latent semantic space. However, all
the exiting encoding models only leverage the information of the document
itself, which is often not sufficient in practice when matching with query
terms, especially for the hard tail queries. In this work we aim to leverage
the additional information for each document from its co-click neighbour to
help document retrieval. The challenges include how to effectively extract
information and eliminate noise when involving co-click information in deep
model while meet the demands of billion-scale data size for real time online
inference.
To handle the noise in co-click relations, we firstly propose a web-scale
Multi-Intention Co-click document Graph(MICG) which builds the co-click
connections between documents on click intention level but not on document
level. Then we present an encoding framework MIRA based on Bert and graph
attention networks which leverages a two-factor attention mechanism to
aggregate neighbours. To meet the online latency requirements, we only involve
neighbour information in document side, which can save the time-consuming query
neighbor search in real time serving. We conduct extensive offline experiments
on both public dataset and private web-scale dataset from two major commercial
search engines demonstrating the effectiveness and scalability of the proposed
method compared with several baselines. And a further case study reveals that
co-click relations mainly help improve web search quality from two aspects: key
concept enhancing and query term complementary.
- Abstract(参考訳): 産業用Web検索におけるディープリコールモデルの問題について検討し、ユーザクエリーが与えられた場合、数十億の候補から最も関連性の高い文書を検索する。
一般的なフレームワークは、クエリとドキュメントの分散表現を別々に学習し、潜伏したセマンティック空間でそれらをマッチングする、ニューラル埋め込みに基づく2つのエンコーディングモデルを訓練することである。
しかし、すべてのエンコーディングモデルは、ドキュメント自体の情報のみを利用するため、特にハードテールクエリでは、クエリ用語にマッチする場合には、実際には不十分であることが多い。
本研究は,各文書の共クリック近傍からの付加情報を活用し,文書検索を支援することを目的とする。
課題には、リアルタイムオンライン推論のための数十億規模のデータサイズのニーズを満たしながら、ディープモデルでコクリック情報を効果的に抽出し、ノイズを取り除く方法が含まれる。
まず,共クリック関係におけるノイズに対処するために,webスケールのマルチインテンション共クリック文書グラフ(micg)を提案する。
次に, bert と graph attention network に基づく符号化フレームワーク mira を提案する。
オンラインのレイテンシ要件を満たすためには、ドキュメント側の隣接情報のみを使用します。
提案手法の有効性と拡張性を示す2つの主要な商用検索エンジンから,公開データセットとプライベートwebスケールデータセットの両方について,オフライン実験を行った。
さらにケーススタディでは、コクリック関係は、主要な概念強化とクエリ項補完という2つの側面から、主にWeb検索品質を改善するのに役立ちます。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文 参考訳(メタデータ) (2023-08-15T11:45:34Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。