論文の概要: Quality Over Clicks: Intrinsic Quality-Driven Iterative Reinforcement Learning for Cold-Start E-Commerce Query Suggestion
- arxiv url: http://arxiv.org/abs/2603.22922v1
- Date: Tue, 24 Mar 2026 08:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.378108
- Title: Quality Over Clicks: Intrinsic Quality-Driven Iterative Reinforcement Learning for Cold-Start E-Commerce Query Suggestion
- Title(参考訳): クリックによる品質: コールドスタートEコマースクエリの提案のための本質的な品質駆動反復強化学習
- Authors: Qi Sun, Kejun Xiao, Huaipeng Zhao, Tao Luo, Xiaoyi Zeng,
- Abstract要約: コールドスタートE-Commerce Query Suggestion(EQS)のための反復的強化学習フレームワークであるCold-EQSを提案する。
我々は、回答可能性、事実性、情報ゲインを報酬として活用し、提案されたクエリの品質を継続的に最適化する。
オフラインとオンラインの両方の実験結果から、私たちのCold-EQSの優位性が示され、オンラインチャットUVの6.81%が大幅に改善された。
- 参考スコア(独自算出の注目度): 11.730968502721195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing dialogue systems rely on Query Suggestion (QS) to enhance user engagement. Recent efforts typically employ large language models with Click-Through Rate (CTR) model, yet fail in cold-start scenarios due to their heavy reliance on abundant online click data for effective CTR model training. To bridge this gap, we propose Cold-EQS, an iterative reinforcement learning framework for Cold-Start E-commerce Query Suggestion (EQS). Specifically, we leverage answerability, factuality, and information gain as reward to continuously optimize the quality of suggested queries. To continuously optimize our QS model, we estimate uncertainty for grouped candidate suggested queries to select hard and ambiguous samples from online user queries lacking click signals. In addition, we provide an EQS-Benchmark comprising 16,949 online user queries for offline training and evaluation. Extensive offline and online experiments consistently demonstrate a strong positive correlation between online and offline effectiveness. Both offline and online experimental results demonstrate the superiority of our Cold-EQS, achieving a significant +6.81% improvement in online chatUV.
- Abstract(参考訳): 既存の対話システムは、ユーザエンゲージメントを高めるためにQuery Suggestion (QS)に依存している。
近年の取り組みでは、クリックスルーレート(CTR)モデルを用いた大規模な言語モデルが採用されているが、効果的なCTRモデルトレーニングのための豊富なオンラインクリックデータに依存するため、コールドスタートシナリオでは失敗している。
このギャップを埋めるため、コールドスタートE-Commerce Query Suggestion (EQS) のための反復的な強化学習フレームワークであるCold-EQSを提案する。
具体的には、回答可能性、事実性、情報ゲインを報酬として活用し、提案されるクエリの品質を継続的に最適化する。
連続的にQSモデルを最適化するために、グループ化された候補提案クエリの不確かさを推定し、クリック信号が欠けているオンラインユーザクエリから、困難であいまいなサンプルを選択する。
さらに、オフライントレーニングおよび評価のための16,949のオンラインユーザクエリからなるEQS-Benchmarkを提供する。
大規模なオフラインおよびオンライン実験は、オンラインとオフラインの有効性の間に強い正の相関を示す。
オフラインとオンラインの両方の実験結果から、私たちのCold-EQSの優位性が示され、オンラインチャットUVの6.81%が大幅に改善された。
関連論文リスト
- Towards End-to-End Alignment of User Satisfaction via Questionnaire in Video Recommendation [24.788289121071575]
ショートビデオレコメンデータシステムは、通常、クリックやウォッチタイムなどの密集したユーザの行動信号を使用してランキングモデルを最適化する。
近年,高品質なダイレクトアライメント監視として,アンケートを通じて収集した明確な満足度フィードバックが出現している。
本研究では,EASQ と呼ばれる質問紙によるユーザ満足度をエンド・ツー・エンドにすることで,ランキングモデルのリアルタイムアライメントと真のユーザ満足度を実現するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-28T03:32:21Z) - A Unified Understanding of Offline Data Selection and Online Self-refining Generation for Post-training LLMs [55.931369468485464]
最適化の観点から、オフラインデータ選択とオンラインセルフリファインディング世代に取り組みます。
両レベルデータ選択フレームワークの有効性を理論的に初めて実証した。
論文 参考訳(メタデータ) (2025-11-26T04:48:33Z) - From Events to Trending: A Multi-Stage Hotspots Detection Method Based on Generative Query Indexing [15.253619026769647]
本稿では、オフライン生成とオンライン識別の両方の観点から体系的な最適化を実現する、トレンド検出のための多段階フレームワークを提案する。
オフライン評価とオンラインA/Bテストの両方において,本フレームワークはベースライン手法よりも有意に優れており,ユーザ満足度は正負のフィードバック比で27%向上した。
論文 参考訳(メタデータ) (2025-10-24T08:49:38Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Improving Offline-to-Online Reinforcement Learning with Q Conditioned State Entropy Exploration [29.891468119032]
オフライン強化学習(RL)の事前学習方針を微調整する方法について検討する。
固有報酬としてQ条件状態エントロピー(QCSE)を提案する。
QCSEによる大幅な改善(CQLで約13%、Cal-QLで8%)を観察します。
論文 参考訳(メタデータ) (2023-10-07T00:02:05Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - Distantly Supervised Transformers For E-Commerce Product QA [5.460297795256275]
Eコマースサービスの商品ページで、実用的なインスタント質問回答(QA)システムを提案します。
ユーザクエリごとに、関連するコミュニティの質問回答(CQA)ペアが取得される。
提案するトランスフォーマーモデルでは,統一構文表現と意味表現を共同学習し,堅牢な関連性関数を学習する。
論文 参考訳(メタデータ) (2021-04-07T06:37:16Z) - Speech Enhancement with Zero-Shot Model Selection [26.945047132110545]
ゼロショットモデル選択(ZMOS)手法を提案し,SE性能の一般化を促進する。
提案手法はオフラインとオンラインの2つのフェーズで実現されている。
実験結果から,ZMOS手法は,可視型と可視型の両方で性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-12-17T02:07:37Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。