論文の概要: RL-based Query Rewriting with Distilled LLM for online E-Commerce Systems
- arxiv url: http://arxiv.org/abs/2501.18056v1
- Date: Wed, 29 Jan 2025 23:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:34.799835
- Title: RL-based Query Rewriting with Distilled LLM for online E-Commerce Systems
- Title(参考訳): オンライン電子商取引システムのための蒸留LCMを用いたRLベースのクエリ書き換え
- Authors: Duy A. Nguyen, Rishi Kesav Mohan, Van Yang, Pritom Saha Akash, Kevin Chen-Chuan Chang,
- Abstract要約: 効率と効率のバランスをとる新しいQR用ハイブリッドパイプラインを提案する。
オンライン強化学習(RL)を用いて,オフラインの知識蒸留を併用し,リアルタイムフィードバックを用いて動的にクエリ書き換えを行う。
Amazon ESCIデータセットの実験結果は、クエリ関連性、多様性、適応性を大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 19.674493253615235
- License:
- Abstract: Query rewriting (QR) is a critical technique in e-commerce search, addressing the lexical gap between user queries and product descriptions to enhance search performance. Existing QR approaches typically fall into two categories: discriminative models and generative methods leveraging large language models (LLMs). Discriminative models often struggle with natural language understanding and offer limited flexibility in rewriting, while generative LLMs, despite producing high-quality rewrites, face high inference latency and cost in online settings. These limitations force offline deployment, making them vulnerable to issues like information staleness and semantic drift. To overcome these challenges, we propose a novel hybrid pipeline for QR that balances efficiency and effectiveness. Our approach combines offline knowledge distillation to create a lightweight but efficient student model with online reinforcement learning (RL) to refine query rewriting dynamically using real-time feedback. A key innovation is the use of LLMs as simulated human feedback, enabling scalable reward signals and cost-effective evaluation without manual annotations. Experimental results on Amazon ESCI dataset demonstrate significant improvements in query relevance, diversity, and adaptability, as well as positive feedback from the LLM simulation. This work contributes to advancing LLM capabilities for domain-specific applications, offering a robust solution for dynamic and complex e-commerce search environments.
- Abstract(参考訳): クエリ書き換え(QR)はeコマース検索において重要な手法であり、ユーザクエリと製品記述の間の語彙的ギャップに対処し、検索性能を向上させる。
既存のQRアプローチは通常、差別モデルと大きな言語モデル(LLM)を利用した生成方法の2つのカテゴリに分類される。
差別的モデルは自然言語の理解に苦しむことが多く、書き直しの柔軟性は制限されるが、ジェネレーティブなLLMは高品質な書き直しを生成するが、オンライン設定では高い推論遅延とコストに直面している。
これらの制限はオフラインのデプロイを強制し、情報の不安定さやセマンティックドリフトといった問題に脆弱になる。
これらの課題を克服するために、効率性と効率性のバランスをとるQR用の新しいハイブリッドパイプラインを提案する。
オンライン強化学習(RL)を用いて,オフラインの知識蒸留を併用し,リアルタイムフィードバックを用いて動的にクエリ書き換えを行う。
重要なイノベーションは、人間のフィードバックをシミュレートするLLMを使うことであり、手動のアノテーションなしでスケーラブルな報酬信号と費用対効果の評価を可能にする。
Amazon ESCIデータセットの実験結果は、クエリ関連性、多様性、適応性を大幅に改善し、LLMシミュレーションからの肯定的なフィードバックを示している。
この研究は、ドメイン固有のアプリケーションのLLM機能の向上に寄与し、動的で複雑なeコマース検索環境のための堅牢なソリューションを提供する。
関連論文リスト
- Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving [41.87011820577736]
本稿では、政治強化学習エージェントを学習するための新しいフレームワークであるRAPIDを紹介する。
LLMベースの運転エージェントで合成されたデータとオンライン適応を用いて、警察のRLエージェントを専門に訓練する。
異なるタスクへの適応性を維持しながら、LLM知識の堅牢性を低減する。
論文 参考訳(メタデータ) (2024-10-16T13:43:00Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback [37.22370177877156]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
複雑な意思決定タスクにおけるそれらの応用は、しばしば複雑な迅速なエンジニアリングや微調整を必要とする。
本稿では,LLMとRLフィードバックの相乗効果を高めるために設計された新しいフレームワークであるAdaRefinerを紹介する。
我々の研究は、RLフィードバックによるLLMの自動自己修正に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-29T12:16:19Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。