Fugu-MT 論文翻訳(概要): SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search

論文の概要: SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search

arxiv url: http://arxiv.org/abs/2308.07711v3
Date: Sun, 27 Aug 2023 11:21:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 20:57:29.395163
Title: SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search
Title（参考訳）: SPM:構造的事前学習とマッチングアーキテクチャによる関係モデリング
Authors: Wen Zan, Yaopeng Han, Xiaotian Jiang, Yao Xiao, Yang Yang, Dayao Chen, Sheng Chen
Abstract要約: eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
参考スコア（独自算出の注目度）: 12.244685291395093
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In e-commerce search, relevance between query and documents is an essential requirement for satisfying user experience. Different from traditional e-commerce platforms that offer products, users search on life service platforms such as Meituan mainly for product providers, which usually have abundant structured information, e.g. name, address, category, thousands of products. Modeling search relevance with these rich structured contents is challenging due to the following issues: (1) there is language distribution discrepancy among different fields of structured document, making it difficult to directly adopt off-the-shelf pretrained language model based methods like BERT. (2) different fields usually have different importance and their length vary greatly, making it difficult to extract document information helpful for relevance matching. To tackle these issues, in this paper we propose a novel two-stage pretraining and matching architecture for relevance matching with rich structured documents. At pretraining stage, we propose an effective pretraining method that employs both query and multiple fields of document as inputs, including an effective information compression method for lengthy fields. At relevance matching stage, a novel matching method is proposed by leveraging domain knowledge in search query to generate more effective document representations for relevance scoring. Extensive offline experiments and online A/B tests on millions of users verify that the proposed architectures effectively improve the performance of relevance modeling. The model has already been deployed online, serving the search traffic of Meituan for over a year.
Abstract（参考訳）: eコマース検索では,クエリとドキュメントの関連性はユーザエクスペリエンスを満たす上で必須である。製品を提供する従来のeコマースプラットフォームとは異なり、ユーザは主に製品提供者向けのmeituanのようなライフサービスプラットフォームで検索する。 1) 構造化文書の異なる分野に言語分布の相違があるため, BERT のような既製の事前学習言語モデルに基づく手法を直接採用することは困難である。 2) 異なる分野が重要であり,その長さが大きく異なるため,関連性マッチングに役立つ文書情報の抽出が困難である。そこで本稿では,リッチな構造化文書とのマッチングのために,新しい2段階事前学習とマッチングアーキテクチャを提案する。事前学習段階では,クエリフィールドと文書の複数のフィールドの両方を入力として使用し,長大なフィールドに対する効果的な情報圧縮手法を含む効果的な事前学習手法を提案する。関連度マッチングの段階では,検索クエリにおけるドメイン知識を活用して,関連度スコアリングのためのより効果的な文書表現を生成する新しいマッチング手法を提案する。数百万人のユーザに対する大規模なオフライン実験とオンラインA/Bテストにより、提案したアーキテクチャが妥当性モデリングのパフォーマンスを効果的に向上することを確認した。モデルはすでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。

関連論文リスト

UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文参考訳（メタデータ） (2025-12-24T10:35:21Z)
Chunk Knowledge Generation Model for Enhanced Information Retrieval: A Multi-task Learning Approach [13.945285357933487]
本研究では,文書をチャンク単位に分割し,チャンク毎のテキストデータを生成し,検索効率と精度を同時に向上する手法を提案する。提案した「チャンク知識生成モデル」では、T5ベースのマルチタスク学習構造を採用し、各文書チャンクからタイトルと候補質問を同時に生成する。 GPTに基づく305のクエリドキュメントペアの評価では、提案したモデルによる検索がTop@10で95.41%の精度を達成した。
論文参考訳（メタデータ） (2025-09-19T06:32:30Z)
ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization [18.13855430873805]
現在の手法では、検索プロセスの後にトランケーションを適用してコンテキスト長に適合させる。本稿では,クエリ選択と文書ランキングを統合した検索に基づく新しいフレームワークを提案する。我々は、複数のMDSデータセット上でのフレームワークを評価し、ROUGEメトリクスの一貫した改善を実証した。
論文参考訳（メタデータ） (2025-04-23T13:41:10Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-10-26T03:07:22Z)
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文参考訳（メタデータ） (2024-10-17T17:03:23Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文参考訳（メタデータ） (2024-07-04T08:08:33Z)
Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文参考訳（メタデータ） (2024-04-03T10:05:47Z)
CAPSTONE: Curriculum Sampling for Dense Retrieval with Document Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文参考訳（メタデータ） (2022-12-18T15:57:46Z)
From Easy to Hard: A Dual Curriculum Learning Framework for Context-Aware Document Ranking [41.8396866002968]
文脈対応文書ランキングのためのカリキュラム学習フレームワークを提案する。我々はこのモデルをグローバルな最適化に向けて徐々に導くことを目指している。 2つの実クエリログデータセットの実験により、提案するフレームワークは、既存のいくつかのメソッドの性能を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-08-22T12:09:12Z)
One-shot Key Information Extraction from Document with Deep Partial Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。 KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文参考訳（メタデータ） (2021-09-26T07:45:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。