論文の概要: LORE: A Large Generative Model for Search Relevance
- arxiv url: http://arxiv.org/abs/2512.03025v1
- Date: Tue, 02 Dec 2025 18:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.013352
- Title: LORE: A Large Generative Model for Search Relevance
- Title(参考訳): LORE: 検索関連性のための大規模生成モデル
- Authors: Chenji Lu, Zhuo Chen, Hui Zhao, Zhiyuan Zeng, Gang Zhao, Junjie Ren, Ruicong Xu, Haoran Li, Songyan Liu, Pengjie Wang, Jian Xu, Bo Zheng,
- Abstract要約: 本稿では,eコマース検索における大規模生成モデルに基づく関連性の体系的枠組みであるLOREを紹介する。
LOREは3年にわたってデプロイされ、反復され、オンラインGoodRateメトリクスの累積+27%の改善を実現した。
- 参考スコア(独自算出の注目度): 23.808303249081117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achievement. We introduce LORE, a systematic framework for Large Generative Model-based relevance in e-commerce search. Deployed and iterated over three years, LORE achieves a cumulative +27\% improvement in online GoodRate metrics. This report shares the valuable experience gained throughout its development lifecycle, spanning data, features, training, evaluation, and deployment. Insight. While existing works apply Chain-of-Thought (CoT) to enhance relevance, they often hit a performance ceiling. We argue this stems from treating relevance as a monolithic task, lacking principled deconstruction. Our key insight is that relevance comprises distinct capabilities: knowledge and reasoning, multi-modal matching, and rule adherence. We contend that a qualitative-driven decomposition is essential for breaking through current performance bottlenecks. Contributions. LORE provides a complete blueprint for the LLM relevance lifecycle. Key contributions include: (1) A two-stage training paradigm combining progressive CoT synthesis via SFT with human preference alignment via RL. (2) A comprehensive benchmark, RAIR, designed to evaluate these core capabilities. (3) A query frequency-stratified deployment strategy that efficiently transfers offline LLM capabilities to the online system. LORE serves as both a practical solution and a methodological reference for other vertical domains.
- Abstract(参考訳): 達成。
本稿では,eコマース検索における大規模生成モデルに基づく関連性の体系的枠組みであるLOREを紹介する。
LOREは3年にわたってデプロイされ、反復され、オンラインGoodRateメトリクスの累積+27\%の改善を実現した。
このレポートでは、データ、機能、トレーニング、評価、デプロイメントにまたがる、開発ライフサイクルを通じて得られた貴重な経験について紹介する。
インサイト。
既存の作品では、CoT(Chain-of-Thought)を使用して関連性を高めているが、パフォーマンスの天井にぶつかることも多い。
これは、モノリシックなタスクとして、原則的なデコンストラクションが欠如していることに起因している、と我々は主張する。
私たちの重要な洞察は、関連性は、知識と推論、マルチモーダルマッチング、ルールの順守といった、異なる能力から成り立っているということです。
現在のパフォーマンスボトルネックを突破するためには、定性的駆動による分解が不可欠である、と我々は主張する。
貢献。
LOREはLLMレバレンスライフサイクルの完全な青写真を提供する。
1) SFTによるプログレッシブCoT合成とRLによる人間の嗜好アライメントを組み合わせた2段階のトレーニングパラダイム。
2) これらのコア機能を評価するために設計された包括的なベンチマークであるRAIR。
(3)オフラインのLCM機能をオンラインシステムに効率的に転送するクエリ周波数階層化デプロイメント戦略。
LOREは、他の垂直領域に対する実践的な解決策と方法論的な参照の両方として機能する。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity [22.289473489488955]
本稿では,新しいポイントツーリスト強化学習フレームワークPoLi-RLを紹介する。
PoLi-RLは、基本的なスコアリング能力を確立するために、単純なポイントワイズでモデルを訓練する。
その後、ポイントワイド、ペアワイド、リストワイドの目的を組み合わせたハイブリッド報酬に移行し、微妙なセマンティックな区別を識別するモデルの能力を洗練させる。
公式のC-STSベンチマークでは、PoLi-RLは48.18のスピアマン相関係数を達成し、クロスエンコーダアーキテクチャのための新しいSOTAを確立した。
論文 参考訳(メタデータ) (2025-10-05T07:57:26Z) - TaoSR1: The Thinking Model for E-commerce Relevance Search [15.137901457184839]
BERTベースのモデルはセマンティックマッチングが優れているが、複雑な推論能力がない。
本稿では,このタスクのために大規模言語モデルを直接デプロイするフレームワークを提案する。このフレームワークは,CoT(Chain-of-Thought)エラーの蓄積,差別的幻覚,デプロイメント実現可能性など,主要な課題に対処する。
筆者らのフレームワークであるTaoSR1は,(1)CoTを用いた教師付ファインチューニング(SFT),(2)パス@N戦略によるオフラインサンプリングとDPOによる生成品質向上,(3)グループ相対政策最適化(GRPO)による難易度に基づく動的サンプリングの3段階からなる。
論文 参考訳(メタデータ) (2025-08-17T13:48:48Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。