論文の概要: Aligning Large Language Models with Searcher Preferences
- arxiv url: http://arxiv.org/abs/2603.10473v1
- Date: Wed, 11 Mar 2026 06:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.815097
- Title: Aligning Large Language Models with Searcher Preferences
- Title(参考訳): 探索者選好による大規模言語モデルの調整
- Authors: Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong,
- Abstract要約: オープンな生成検索のための最初の大規模言語モデル(LLM)であるSearchLLMを紹介する。
ボトムライン制約を分離する階層型多次元報酬システムの設計を行う。
オフライン評価とオンラインA/Bテストでは、生成品質とユーザエンゲージメントが改善されている。
- 参考スコア(独自算出の注目度): 26.974618053554394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm shift from item-centric ranking to answer-centric synthesis is redefining the role of search engines. While recent industrial progress has applied generative techniques to closed-set item ranking in e-commerce, research and deployment of open-ended generative search on large content platforms remain limited. This setting introduces challenges, including robustness to noisy retrieval, non-negotiable safety guarantees, and alignment with diverse user needs. In this work, we introduce SearchLLM, the first large language model (LLM) for open-ended generative search. We design a hierarchical, multi-dimensional reward system that separates bottom-line constraints, including factual grounding, basic answer quality and format compliance, from behavior optimization objectives that promote robustness to noisy retrieval and alignment with user needs. Concretely, our reward model evaluates responses conditioned on the user query, session history, and retrieved evidence set, combining rule-based checks with human-calibrated LLM judges to produce an interpretable score vector over these dimensions. We introduce a Gated Aggregation Strategy to derive the training reward for optimizing SearchLLM with Group Relative Policy Optimization (GRPO). We deploy SearchLLM in the AI search entry of RedNote. Offline evaluations and online A/B tests show improved generation quality and user engagement, increasing Valid Consumption Rate by 1.03% and reducing Re-search Rate by 2.81%, while upholding strict safety and reliability standards.
- Abstract(参考訳): アイテム中心のランキングから回答中心の合成へのパラダイムシフトは、検索エンジンの役割を再定義している。
近年の産業進歩は、電子商取引におけるクローズド・セット・アイテムランキングに生成技術を適用しているが、大規模コンテンツプラットフォームにおけるオープン・エンド・ジェネレーション・サーチの研究と展開は依然として限られている。
この設定では、ノイズの多い検索に対する堅牢性、非交渉可能な安全保証、多様なユーザニーズとの整合性といった課題が導入されている。
本研究では,オープン・エンド・ジェネレーティブ・サーチのための最初の大規模言語モデルであるSearchLLMを紹介する。
本研究では,現実の根拠付け,基本応答品質,フォーマットコンプライアンスなどのボトムライン制約を,ノイズの多い検索とユーザニーズの整合性を促進する行動最適化目標から分離する階層型多次元報酬システムの設計を行う。
具体的には、ユーザクエリ、セッション履歴、検索されたエビデンスセットに基づいて、ルールベースのチェックと人間の校正されたLCMの判断を組み合わせることで、これらの次元の解釈可能なスコアベクトルを生成する。
本稿では,グループ相対政策最適化(GRPO)を用いて検索LLMを最適化するためのトレーニング報酬を導出するために,Gated Aggregation Strategyを導入する。
我々はRedNoteのAI検索エントリにSearchLLMをデプロイする。
オフライン評価とオンラインA/Bテストは、生成品質とユーザエンゲージメントを改善し、有効消費率を1.03%引き上げ、検索率を2.81%削減し、厳格な安全性と信頼性基準を維持している。
関連論文リスト
- SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文 参考訳(メタデータ) (2026-01-08T12:39:05Z) - Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。
提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文 参考訳(メタデータ) (2025-10-19T16:46:11Z) - OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search [43.94443394870866]
OneSearchは、eコマース検索のための最初の産業向けエンドツーエンド生成フレームワークである。
OneSearchは運用費を75.40%削減し、Model FLOPsの利用を3.26%から27.32%に改善した。
このシステムはKuaishouの複数の検索シナリオにまたがって展開され、数百万のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2025-09-03T11:50:04Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。