論文の概要: DyKnow-RAG: Dynamic Knowledge Utilization Reinforcement Framework for Noisy Retrieval-Augmented Generation in E-commerce Search Relevance
- arxiv url: http://arxiv.org/abs/2510.11122v1
- Date: Mon, 13 Oct 2025 08:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.260364
- Title: DyKnow-RAG: Dynamic Knowledge Utilization Reinforcement Framework for Noisy Retrieval-Augmented Generation in E-commerce Search Relevance
- Title(参考訳): DyKnow-RAG:Eコマース検索関連における雑音検索強化のための動的知識活用強化フレームワーク
- Authors: Tingqiao Xu, Shaowei Yao, Chenhe Dong, Yiming Jin, Zerui Huang, Dan Ou, Haihong Tang,
- Abstract要約: DyKnow-RAGは、グループ相対ポリシー最適化に基づいて構築された動的ノイズ-RAGフレームワークである。
2つのロールアウトグループ(外部コンテキストと単一の取得チャンク)をトレーニングし、後続駆動によるグループ間アドバンテージスケーリングを適用する。
タオバオの生産関連システムに配備され、生の交通に供されている。
- 参考スコア(独自算出の注目度): 7.605150700675235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately modeling query-item relevance drives e-commerce ranking, yet long-tail, knowledge-heavy, and fast-evolving queries exceed parametric LLM coverage. External context (reviews, attribute encyclopedias, UGC) can help but is noisy, and single-pass latency and cost forbid any clean-then-summarize step. The model must, per query, judge relevance and decide whether to use, partially use, or ignore the context. DyKnow-RAG is a dynamic noisy-RAG framework built on Group Relative Policy Optimization. It trains two rollout groups (no external context vs a single retrieved chunk) and applies posterior-driven inter-group advantage scaling that adaptively reweights their contributions by the per-query correctness gap. This teaches when to trust retrieval versus fall back to parametric knowledge, without process labels, value networks, or extra inference passes, preserving single-pass, single-chunk deployment under production latency. Training combines: (1) supervised initialization with a structured rationale that explicitly records the context-usage decision; (2) an RL pool prioritized by SFT uncertainty to focus where context choice is most consequential; and (3) an optional lightweight DPO warm start to stabilize with-context calibration. Under a unified retrieval/index and fixed latency budget, DyKnow-RAG outperforms SFT, DPO, and vanilla GRPO in offline tests, and delivers consistent lifts on GSB, Query Goodrate, and Item Goodrate in Taobao A/B testing. It is deployed in Taobao's production relevance system, serving live traffic. To our knowledge, it is among the first single-pass RAG solutions for e-commerce relevance, turning noisy external signals into reliable gains without added online complexity.
- Abstract(参考訳): クエリ関連性の正確なモデリングは、Eコマースランキング、ロングテール、ナレッジヘビー、高速進化クエリをパラメトリックLCMのカバレッジを超えます。
外部コンテキスト(リビュー、属性百科事典、UGC)は騒がしいが、単一パスのレイテンシとコストは、クリーンな列挙ステップを禁止している。
モデルはクエリ毎に関連性を判断し、使用するか、部分的に使用するか、コンテキストを無視するかを判断する必要があります。
DyKnow-RAGは、グループ相対ポリシー最適化に基づいて構築された動的ノイズ-RAGフレームワークである。
2つのロールアウトグループ(外部コンテキストと1つの取得チャンク)をトレーニングし、後続駆動によるグループ間オーバヘッドスケーリングを適用して、クエリ毎の正しさギャップによってコントリビューションを適応的に強調する。
これは、プロセスラベルやバリューネットワーク、余分な推論パスを使わずに、検索を信頼するか、パラメトリックな知識にフォールバックするかを教えます。
トレーニングは,(1)教師付き初期化と,文脈利用決定を明示的に記録する構造化論理,(2)SFTの不確実性によって優先されるRLプールと,(3)オプションの軽量DPOウォームが,コンテキストのキャリブレーションを安定させるために開始される。
統合された検索/インデックスと固定レイテンシの予算の下で、DyKnow-RAGはオフラインテストでSFT、DPO、vanilla GRPOを上回っ、Taobao A/BテストでGSB、Query Goodrate、Item Goodrateで一貫したリフトを提供する。
タオバオの生産関連システムに配備され、生の交通に供されている。
我々の知る限り、これは電子商取引関連のための最初のシングルパスRAGソリューションであり、ノイズの多い外部シグナルをオンラインの複雑さを増すことなく信頼性の高いゲインに変える。
関連論文リスト
- Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Fishing for Answers: Exploring One-shot vs. Iterative Retrieval Strategies for Retrieval Augmented Generation [11.180502261031789]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)に基づく、業界におけるクローズドソース文書の理解とクエリのための強力なソリューションである。
しかしながら、基本的なRAGは、法律および規制領域における複雑なQAタスクに苦しむことが多い。
証拠のカバレッジを改善し、品質に答えるための2つの戦略を探求する。
論文 参考訳(メタデータ) (2025-09-05T05:44:50Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - PAIRS: Parametric-Verified Adaptive Information Retrieval and Selection for Efficient RAG [14.631028226704883]
我々はPAIRS(Parametric-verified Adaptive Information Retrieval and Selection)を紹介する。
PAIRSはパラメトリックと検索された知識を統合して、検索するかどうか、外部情報を選択すべきかを適応的に決定する。
PAIRSは検索コストを約25%削減し(クエリの75%しか処理しない)、精度を+1.1% EMと+1.0% F1に改善した。
論文 参考訳(メタデータ) (2025-08-06T03:33:01Z) - DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided MCTS [28.828541350757714]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRは、MCTS(Monte Carlo Tree Search)と適応経路評価を統合し、コンテキスト対応のKGQAを実現する。
複数のKGQAベンチマークの実験では、DAMRはSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation [64.7982176398485]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚化問題を緩和する効果を実証している。
本稿では,RAGシステム内での多様な知識嗜好の整合を図った汎用フレームワークであるDPA-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-26T18:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。