論文の概要: Event-driven Real-time Retrieval in Web Search
- arxiv url: http://arxiv.org/abs/2312.00372v2
- Date: Mon, 4 Dec 2023 11:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 12:04:39.134291
- Title: Event-driven Real-time Retrieval in Web Search
- Title(参考訳): web 検索におけるイベント駆動リアルタイム検索
- Authors: Nan Yang, Shusen Zhang, Yannan Zhang, Xiaoling Bai, Hualong Deng,
Tianhua Zhou and Jin Ma
- Abstract要約: 本稿では,リアルタイム検索の意図を表すイベント情報を用いてクエリを拡張する。
マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。
提案手法は既存の最先端のベースライン法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 15.235255100530496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information retrieval in real-time search presents unique challenges distinct
from those encountered in classical web search. These challenges are
particularly pronounced due to the rapid change of user search intent, which is
influenced by the occurrence and evolution of breaking news events, such as
earthquakes, elections, and wars. Previous dense retrieval methods, which
primarily focused on static semantic representation, lack the capacity to
capture immediate search intent, leading to inferior performance in retrieving
the most recent event-related documents in time-sensitive scenarios. To address
this issue, this paper expands the query with event information that represents
real-time search intent. The Event information is then integrated with the
query through a cross-attention mechanism, resulting in a time-context query
representation. We further enhance the model's capacity for event
representation through multi-task training. Since publicly available datasets
such as MS-MARCO do not contain any event information on the query side and
have few time-sensitive queries, we design an automatic data collection and
annotation pipeline to address this issue, which includes ModelZoo-based Coarse
Annotation and LLM-driven Fine Annotation processes. In addition, we share the
training tricks such as two-stage training and hard negative sampling. Finally,
we conduct a set of offline experiments on a million-scale production dataset
to evaluate our approach and deploy an A/B testing in a real online system to
verify the performance. Extensive experimental results demonstrate that our
proposed approach significantly outperforms existing state-of-the-art baseline
methods.
- Abstract(参考訳): リアルタイム検索における情報検索は、古典的なウェブ検索で遭遇した情報とは異なるユニークな課題を示す。
これらの課題は、地震、選挙、戦争などの突発的なニュースイベントの発生と進化に影響されるユーザ検索意図の急激な変化によって特に顕著である。
静的セマンティック表現に主に焦点をあてた従来の密集検索手法では、即時検索インテントをキャプチャする能力が欠如しており、最新のイベント関連文書をタイムセンシティブなシナリオで検索する際の性能が劣っている。
この問題に対処するため,本稿では,リアルタイム検索意図を表すイベント情報を用いてクエリを拡張する。
イベント情報は、クロスアテンションメカニズムを通じてクエリと統合され、時間-コンテキストのクエリ表現となる。
マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。
ms-marcoのような公開データセットはクエリ側ではイベント情報を一切含んでおらず、時間に敏感なクエリも少ないため、modelzooベースの粗いアノテーションとllm駆動の細かいアノテーションプロセスを含むこの問題に対処するための自動データ収集とアノテーションパイプラインを設計します。
また、2段階トレーニングやハードネガティブサンプリングといったトレーニング手法も共有しています。
最後に、100万規模の運用データセット上でオフライン実験を行い、我々のアプローチを評価し、実際のオンラインシステムにA/Bテストを展開し、パフォーマンスを検証する。
実験の結果,提案手法は既存の最先端のベースライン法よりも大幅に優れていた。
関連論文リスト
- Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Event-enhanced Retrieval in Real-time Search [5.720930457681116]
既存の埋め込みベースの検索モデルは、しばしば「セマンティックドリフト」問題に直面し、キー情報に重点を置いていない。
本稿では,デュアルエンコーダモデルの改良により,リアルタイム検索性能を向上させるEERという新しい手法を提案する。
我々は,この手法が情報検索の分野で新たな視点をもたらすと信じている。
論文 参考訳(メタデータ) (2024-04-09T03:47:48Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - RETE: Retrieval-Enhanced Temporal Event Forecasting on Unified Query
Product Evolutionary Graph [18.826901341496143]
時間的イベント予測は、統合クエリ製品進化グラフにおける新しいユーザ行動予測タスクである。
本稿では,新しいイベント予測フレームワークを提案する。
既存手法とは違って,グラフ全体の大まかに連結されたエンティティを通じてユーザ表現を強化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-12T19:27:56Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - Event-Driven Query Expansion [23.08079115356717]
まず,関連するイベントを検知してイベント関連クエリを拡張する手法を提案する。
クエリとイベントの両方に意味論的に関連する用語として拡張候補を導出する。
提案手法は,各種ニュースワイヤTRECデータセットの最先端手法と比較して,クエリ拡張性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2020-12-22T14:56:54Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。