論文の概要: CPRM: A LLM-based Continual Pre-training Framework for Relevance Modeling in Commercial Search
- arxiv url: http://arxiv.org/abs/2412.01269v5
- Date: Tue, 18 Feb 2025 09:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:05:01.587518
- Title: CPRM: A LLM-based Continual Pre-training Framework for Relevance Modeling in Commercial Search
- Title(参考訳): CPRM:商業検索における関連モデリングのためのLCMベース連続事前学習フレームワーク
- Authors: Kaixin Wu, Yixin Ji, Zeyuan Chen, Qiang Wang, Cunxiang Wang, Hong Liu, Baijun Ji, Jia Xu, Zhongyi Liu, Jinjie Gu, Yuan Zhou, Linjian Mo,
- Abstract要約: CPRMは、大規模言語モデル(LLM)の継続的な事前訓練のために設計されたフレームワークである
本フレームワークは3つのモジュールから構成される: 1) クエリとマルチフィールドアイテムを併用してドメイン知識を強化する,2) コンテキスト内事前学習を適用する,3) 関連するドメイン知識とバックグラウンド情報を生成する,という3つのモジュール。
- 参考スコア(独自算出の注目度): 34.08551439233784
- License:
- Abstract: Relevance modeling between queries and items stands as a pivotal component in commercial search engines, directly affecting the user experience. Given the remarkable achievements of large language models (LLMs) in various natural language processing (NLP) tasks, LLM-based relevance modeling is gradually being adopted within industrial search systems. Nevertheless, foundational LLMs lack domain-specific knowledge and do not fully exploit the potential of in-context learning. Furthermore, structured item text remains underutilized, and there is a shortage in the supply of corresponding queries and background knowledge. We thereby propose CPRM (Continual Pre-training for Relevance Modeling), a framework designed for the continual pre-training of LLMs to address these issues. Our CPRM framework includes three modules: 1) employing both queries and multi-field item to jointly pre-train for enhancing domain knowledge, 2) applying in-context pre-training, a novel approach where LLMs are pre-trained on a sequence of related queries or items, and 3) conducting reading comprehension on items to produce associated domain knowledge and background information (e.g., generating summaries and corresponding queries) to further strengthen LLMs. Results on offline experiments and online A/B testing demonstrate that our model achieves convincing performance compared to strong baselines.
- Abstract(参考訳): クエリとアイテム間の関連モデリングは、商用検索エンジンにおいて重要な要素であり、ユーザエクスペリエンスに直接影響を与えます。
様々な自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の顕著な成果を踏まえ、LLMに基づく関連性モデリングは、徐々に産業検索システムに採用されつつある。
しかし、基礎的なLLMにはドメイン固有の知識がなく、文脈内学習の可能性を十分に活用していない。
さらに、構造化項目テキストは未利用のままであり、対応するクエリやバックグラウンド知識の供給が不足している。
そこで我々は, CPRM (Continual Pre-training for Relevance Modeling) を提案する。
CPRMフレームワークには3つのモジュールがあります。
1)ドメイン知識を高めるために,クエリとマルチフィールド項目を併用して,共同で事前訓練を行う。
2 文脈内事前学習の適用、LCMを関連するクエリや項目のシーケンスで事前訓練する新しいアプローチ
3)関連するドメイン知識と背景情報(例えば、要約と対応するクエリ)を生成する項目の読解を行い、LCMをさらに強化する。
オフライン実験とオンラインA/Bテストの結果は、強力なベースラインと比較して、我々のモデルが説得力のあるパフォーマンスを達成することを示した。
関連論文リスト
- Explainable LLM-driven Multi-dimensional Distillation for E-Commerce Relevance Learning [20.569157915157817]
電子商取引関連学習のための説明可能なLCM駆動多次元蒸留フレームワークを提案する。
提案手法は,eコマース関連学習性能とユーザエクスペリエンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-20T05:30:15Z) - RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - CRE-LLM: A Domain-Specific Chinese Relation Extraction Framework with Fine-tuned Large Language Model [1.9950682531209156]
ドメイン特化中国語関係抽出(DSCRE)は、ドメイン特化中国語テキストからエンティティ間の関係を抽出することを目的としている。
自然言語処理における大規模言語モデル(LLM)の優れた性能を考えると、CRE-LLMと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:27:15Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Knowledgeable In-Context Tuning: Exploring and Exploiting Factual Knowledge for In-Context Learning [37.22349652230841]
大規模言語モデル(LLM)は、テキストベースのプロンプトとしてラベル付きトレーニング例を条件にすることで、コンテキスト内学習(ICL)を可能にする。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文 参考訳(メタデータ) (2023-09-26T09:06:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。