論文の概要: CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search
- arxiv url: http://arxiv.org/abs/2511.15443v1
- Date: Wed, 19 Nov 2025 13:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.830156
- Title: CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search
- Title(参考訳): CroPS:ショートビデオ検索におけるクロスパースペクティブ・ポジティヴ・サンプルによるDense Retrievalの改善
- Authors: Ao Xie, Jiahui Chen, Quanzhi Zhu, Xiaoze Jiang, Zhiheng Qin, Enyun Yu, Han Li,
- Abstract要約: CroPS (Cross-Perspective Positive Samples) は、新しい検索データエンジンである。
ユーザクエリの修正行動から得られる肯定的な信号によるトレーニングを強化する。
CroPSは現在Kuaishou Searchに完全にデプロイされており、毎日数億人のユーザーにサービスを提供している。
- 参考スコア(独自算出の注目度): 10.310885252492925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval has become a foundational paradigm in modern search systems, especially on short-video platforms. However, most industrial systems adopt a self-reinforcing training pipeline that relies on historically exposed user interactions for supervision. This paradigm inevitably leads to a filter bubble effect, where potentially relevant but previously unseen content is excluded from the training signal, biasing the model toward narrow and conservative retrieval. In this paper, we present CroPS (Cross-Perspective Positive Samples), a novel retrieval data engine designed to alleviate this problem by introducing diverse and semantically meaningful positive examples from multiple perspectives. CroPS enhances training with positive signals derived from user query reformulation behavior (query-level), engagement data in recommendation streams (system-level), and world knowledge synthesized by large language models (knowledge-level). To effectively utilize these heterogeneous signals, we introduce a Hierarchical Label Assignment (HLA) strategy and a corresponding H-InfoNCE loss that together enable fine-grained, relevance-aware optimization. Extensive experiments conducted on Kuaishou Search, a large-scale commercial short-video search platform, demonstrate that CroPS significantly outperforms strong baselines both offline and in live A/B tests, achieving superior retrieval performance and reducing query reformulation rates. CroPS is now fully deployed in Kuaishou Search, serving hundreds of millions of users daily.
- Abstract(参考訳): デンス検索は現代の検索システム、特にショートビデオプラットフォームにおける基礎パラダイムとなっている。
しかし、ほとんどの産業システムは、監督のために歴史的に暴露されたユーザーインタラクションに依存する自己強化トレーニングパイプラインを採用している。
このパラダイムは必然的にフィルターバブル効果を招き、トレーニング信号から潜在的に関連性はあるが以前は目に見えない内容が除外され、モデルが狭く保守的な検索に偏っている。
本稿では,複数の視点から多種多様かつ意味論的に有意な正の例を導入することで,この問題を緩和する新しい検索データエンジンであるCroPS(Cross-Perspective Positive Samples)を提案する。
CroPSは、ユーザクエリ再構成行動(クエリレベル)、レコメンデーションストリーム(システムレベル)のエンゲージメントデータ、および大規模言語モデル(知識レベル)によって合成された世界知識から得られる正の信号によるトレーニングを強化する。
これらの異種信号を効果的に活用するために、階層ラベル割り当て(HLA)戦略とそれに対応するH-InfoNCE損失を導入する。
大規模な商用ショートビデオ検索プラットフォームであるKuaishou Searchで実施された大規模な実験は、CroPSがオフラインとライブA/Bテストの両方において強力なベースラインを著しく上回り、検索性能が向上し、クエリ修正率を低下させることを示した。
CroPSは現在Kuaishou Searchに完全にデプロイされており、毎日数億人のユーザーにサービスを提供している。
関連論文リスト
- TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search [11.893855231479717]
Retrieval-GRPOは強化学習に基づく高密度検索フレームワークである。
中国最大のeコマースプラットフォームに配備されている。
論文 参考訳(メタデータ) (2025-11-17T20:16:52Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Buffer-free Class-Incremental Learning with Out-of-Distribution Detection [17.67144692440415]
クラスインクリメンタルラーニング(CIL)は、オープンワールドシナリオにおいて大きな課題となる。
本稿では,ポストホックOOD検出手法の詳細な解析を行い,メモリバッファの必要性を解消する可能性について検討する。
このバッファフリー手法は,クラスインクリメンタル学習と未知サンプルの拒絶という両面において,バッファベースの手法と同等あるいは優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-05-29T13:01:00Z) - Unveiling Contrastive Learning's Capability of Neighborhood Aggregation for Collaborative Filtering [16.02820746003461]
グラフコントラスト学習(GCL)は、リコメンデータシステムにおいて、徐々に支配的なアプローチになりつつある。
本稿では,CL目標の勾配降下過程がグラフ畳み込みと正式に等価であることを明らかにする。
そこで本稿では,ユーザを他のポジティブなペアから遠ざけながら,対話するすべてのアイテムに近づけるための,新しいエリアアグリゲーションの目標を提案する。
論文 参考訳(メタデータ) (2025-04-14T11:22:41Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Enhancing Retrieval Performance: An Ensemble Approach For Hard Negative Mining [0.0]
本研究は,クロスエンコーダモデルのトレーニングプロセスにおいて,ハードネガティブが果たす重要な役割を説明することに焦点を当てる。
我々は,企業データセット上でのクロスエンコーダ・リランクモデルの効率的なトレーニングのための強硬な負のマイニング手法を開発した。
論文 参考訳(メタデータ) (2024-10-18T05:23:39Z) - Retrieval-Oriented Knowledge for Click-Through Rate Prediction [29.55757862617378]
クリックスルー率(CTR)予測は、パーソナライズされたオンラインサービスにとって不可欠である。
underlineretrieval-underlineoriented underlineknowledge(bfname)フレームワークは、実際の検索プロセスをバイパスする。
nameは、検索および集約された表現を保存および模倣する知識ベースを特徴とする。
論文 参考訳(メタデータ) (2024-04-28T20:21:03Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。