論文の概要: SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search
- arxiv url: http://arxiv.org/abs/2308.07711v3
- Date: Sun, 27 Aug 2023 11:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 20:57:29.395163
- Title: SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search
- Title(参考訳): SPM:構造的事前学習とマッチングアーキテクチャによる関係モデリング
- Authors: Wen Zan, Yaopeng Han, Xiaotian Jiang, Yao Xiao, Yang Yang, Dayao Chen,
Sheng Chen
- Abstract要約: eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
- 参考スコア(独自算出の注目度): 12.244685291395093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In e-commerce search, relevance between query and documents is an essential
requirement for satisfying user experience. Different from traditional
e-commerce platforms that offer products, users search on life service
platforms such as Meituan mainly for product providers, which usually have
abundant structured information, e.g. name, address, category, thousands of
products. Modeling search relevance with these rich structured contents is
challenging due to the following issues: (1) there is language distribution
discrepancy among different fields of structured document, making it difficult
to directly adopt off-the-shelf pretrained language model based methods like
BERT. (2) different fields usually have different importance and their length
vary greatly, making it difficult to extract document information helpful for
relevance matching.
To tackle these issues, in this paper we propose a novel two-stage
pretraining and matching architecture for relevance matching with rich
structured documents. At pretraining stage, we propose an effective pretraining
method that employs both query and multiple fields of document as inputs,
including an effective information compression method for lengthy fields. At
relevance matching stage, a novel matching method is proposed by leveraging
domain knowledge in search query to generate more effective document
representations for relevance scoring. Extensive offline experiments and online
A/B tests on millions of users verify that the proposed architectures
effectively improve the performance of relevance modeling. The model has
already been deployed online, serving the search traffic of Meituan for over a
year.
- Abstract(参考訳): eコマース検索では,クエリとドキュメントの関連性はユーザエクスペリエンスを満たす上で必須である。
製品を提供する従来のeコマースプラットフォームとは異なり、ユーザは主に製品提供者向けのmeituanのようなライフサービスプラットフォームで検索する。
1) 構造化文書の異なる分野に言語分布の相違があるため, BERT のような既製の事前学習言語モデルに基づく手法を直接採用することは困難である。
2) 異なる分野が重要であり,その長さが大きく異なるため,関連性マッチングに役立つ文書情報の抽出が困難である。
そこで本稿では,リッチな構造化文書とのマッチングのために,新しい2段階事前学習とマッチングアーキテクチャを提案する。
事前学習段階では,クエリフィールドと文書の複数のフィールドの両方を入力として使用し,長大なフィールドに対する効果的な情報圧縮手法を含む効果的な事前学習手法を提案する。
関連度マッチングの段階では,検索クエリにおけるドメイン知識を活用して,関連度スコアリングのためのより効果的な文書表現を生成する新しいマッチング手法を提案する。
数百万人のユーザに対する大規模なオフライン実験とオンラインA/Bテストにより、提案したアーキテクチャが妥当性モデリングのパフォーマンスを効果的に向上することを確認した。
モデルはすでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
関連論文リスト
- PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - From Easy to Hard: A Dual Curriculum Learning Framework for
Context-Aware Document Ranking [41.8396866002968]
文脈対応文書ランキングのためのカリキュラム学習フレームワークを提案する。
我々はこのモデルをグローバルな最適化に向けて徐々に導くことを目指している。
2つの実クエリログデータセットの実験により、提案するフレームワークは、既存のいくつかのメソッドの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-08-22T12:09:12Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching [23.52046767195031]
半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
論文 参考訳(メタデータ) (2022-02-23T05:32:34Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z) - MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks [5.963438927897287]
産業Web検索におけるディープリコールモデルの問題について検討する。
ウェブスケールのマルチインテンション共同クリック文書グラフを提案する。
また,Bertとグラフアテンションネットワークに基づく符号化フレームワークMIRAを提案する。
論文 参考訳(メタデータ) (2020-07-03T06:32:48Z) - Spatial Dependency Parsing for Semi-Structured Document Information
Extraction [29.231908055394808]
本研究では,文書内の複雑な関係と任意の数の情報層をエンドツーエンドにモデル化するSPADE(SPA Dependency)を提案する。
我々はレシート、名刺、フォーム、請求書など、さまざまな種類の文書で評価する。
論文 参考訳(メタデータ) (2020-05-01T22:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。