Fugu-MT 論文翻訳(概要): Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract)

論文の概要: Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract)

arxiv url: http://arxiv.org/abs/2409.16594v1
Date: Wed, 25 Sep 2024 03:39:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 05:45:19.472591
Title: Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract)
Title（参考訳）: Webスケールでの過パラメータ化による事前学習ランキング生成モデル(拡張抽象)
Authors: Yuchen Li, Haoyi Xiong, Linghe Kong, Jiang Bian, Shuaiqiang Wang, Guihai Chen, Dawei Yin,
Abstract要約: ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
参考スコア（独自算出の注目度）: 73.57710917145212
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning to rank (LTR) is widely employed in web searches to prioritize pertinent webpages from retrieved content based on input queries. However, traditional LTR models encounter two principal obstacles that lead to suboptimal performance: (1) the lack of well-annotated query-webpage pairs with ranking scores covering a diverse range of search query popularities, which hampers their ability to address queries across the popularity spectrum, and (2) inadequately trained models that fail to induce generalized representations for LTR, resulting in overfitting. To address these challenges, we propose a \emph{\uline{G}enerative \uline{S}emi-\uline{S}upervised \uline{P}re-trained} (GS2P) LTR model. We conduct extensive offline experiments on both a publicly available dataset and a real-world dataset collected from a large-scale search engine. Furthermore, we deploy GS2P in a large-scale web search engine with realistic traffic, where we observe significant improvements in the real-world application.
Abstract（参考訳）: LTR(Learning to rank)は、検索クエリに基づいて検索されたコンテンツから関連するWebページを優先順位付けするために、Web検索に広く利用されている。しかし、従来のLTRモデルでは、(1)検索クエリの人気度を多岐にわたってカバーする、十分な注釈付きクエリ-ウェブページペアの欠如、(2)LTRの汎用表現を誘導できない不適切なトレーニングモデル、という2つの障害に直面する。これらの課題に対処するため、我々は \emph{\uline{G}enerative \uline{S}emi-\uline{S}upervised \uline{P}re-trained} (GS2P) LTRモデルを提案する。我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。さらに,現実的なトラフィックを持つ大規模Web検索エンジンにGS2Pをデプロイし,実世界のアプリケーションにおける大幅な改善を観察する。

関連論文リスト

FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文参考訳（メタデータ） (2025-07-10T11:02:13Z)
MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文参考訳（メタデータ） (2025-05-07T17:30:22Z)
On Synthetic Data Strategies for Domain-Specific Generative Retrieval [23.906425329806456]
2段階のトレーニングフレームワークのためのデータストラテジーについて検討する。最初の段階では、ドキュメントの識別子をクエリからデコードすることを学びます。第2段階では、好み学習により文書ランキングを洗練させる。
論文参考訳（メタデータ） (2025-02-25T08:27:54Z)
ScalingNote: Scaling up Retrievers with Large Language Models for Real-World Dense Retrieval [72.2676180980573]
大規模言語モデル(LLM)は、高密度検索のスケールアップに活用できる優れた性能を示した。オンラインクエリ待ち時間を維持しながら、検索にLLMのスケーリング可能性を利用する2段階のScalingNoteを提案する。両段階のスケーリング手法はエンド・ツー・エンドのモデルより優れており,産業シナリオにおけるLLMを用いた高密度検索のスケーリング法則を検証している。
論文参考訳（メタデータ） (2024-11-24T09:27:43Z)
Scale-Invariant Learning-to-Rank [0.0]
Expediaでは、学習からランクまでのモデルが、ユーザがより関連性のある情報をソートし提示する上で重要な役割を担っている。これらのモデルをデプロイする上で大きな課題は、トレーニングと運用データ間の一貫した機能スケーリングを保証することだ。本稿では,学習時間と予測時間の両方でモデル内のスケール不変性を数学的に保証するために,ディープニューラルネットワークとワイドニューラルネットワークを組み合わせたスケール不変LTRフレームワークを提案する。我々は、予測時にテストセットを摂動させることにより、実世界のシナリオをシミュレーションして評価し、一貫性のないトレインテストのスケーリングであっても、フレームワークを使用した場合よりも優れたパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2024-10-02T19:05:12Z)
Meta Learning to Rank for Sparsely Supervised Queries [10.422527051110526]
多くの現実世界の検索と検索のシナリオでは、監視信号は簡単には利用できないかもしれないし、いくつかのクエリを入手するのにコストがかかるかもしれない。本稿では,メタラーニングの高速学習と適応能力を活用した新しいメタラーニング手法を提案する。提案手法は,新しいクエリがトレーニングクエリと異なる特性を持つ場合,特に有益である。
論文参考訳（メタデータ） (2024-09-29T04:24:38Z)
Pre-trained Graphformer-based Ranking at Web-scale Search (Extended Abstract) [56.55728466130238]
本稿では,変換器の回帰能力をGNNのリンク予測強度と統合することを目的とした新しいMPGrafモデルを提案する。我々は、MPGrafの性能を厳格に評価するために、大規模なオフラインおよびオンライン実験を行っている。
論文参考訳（メタデータ） (2024-09-25T03:33:47Z)
List-aware Reranking-Truncation Joint Model for Search and Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。 GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文参考訳（メタデータ） (2024-02-05T06:52:53Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。 1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文参考訳（メタデータ） (2022-07-07T02:37:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。