論文の概要: RGAlign-Rec: Ranking-Guided Alignment for Latent Query Reasoning in Recommendation Systems
- arxiv url: http://arxiv.org/abs/2602.12968v1
- Date: Fri, 13 Feb 2026 14:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.984693
- Title: RGAlign-Rec: Ranking-Guided Alignment for Latent Query Reasoning in Recommendation Systems
- Title(参考訳): RGAlign-Rec:レコメンデーションシステムにおける潜在クエリ推論のためのランク付けガイドアライメント
- Authors: Junhua Liu, Yang Jihao, Cheng Chang, Kunrong LI, Bin Fu, Kwan Hui Lim,
- Abstract要約: 本稿では,プロアクティブな意図予測のための閉ループアライメントフレームワーク RGAlign-Rec を提案する。
また、マルチステージトレーニングパラダイムであるRGA(Ranning-Guided Alignment)も導入する。
我々のフレームワークはGAUCで0.12%向上し、エラー率を3.52%削減し、Recall@3で0.56%改善した。
- 参考スコア(独自算出の注目度): 25.34524038198569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proactive intent prediction is a critical capability in modern e-commerce chatbots, enabling "zero-query" recommendations by anticipating user needs from behavioral and contextual signals. However, existing industrial systems face two fundamental challenges: (1) the semantic gap between discrete user features and the semantic intents within the chatbot's Knowledge Base, and (2) the objective misalignment between general-purpose LLM outputs and task-specific ranking utilities. To address these issues, we propose RGAlign-Rec, a closed-loop alignment framework that integrates an LLM-based semantic reasoner with a Query-Enhanced (QE) ranking model. We also introduce Ranking-Guided Alignment (RGA), a multi-stage training paradigm that utilizes downstream ranking signals as feedback to refine the LLM's latent reasoning. Extensive experiments on a large-scale industrial dataset from Shopee demonstrate that RGAlign-Rec achieves a 0.12% gain in GAUC, leading to a significant 3.52% relative reduction in error rate, and a 0.56% improvement in Recall@3. Online A/B testing further validates the cumulative effectiveness of our framework: the Query-Enhanced model (QE-Rec) initially yields a 0.98% improvement in CTR, while the subsequent Ranking-Guided Alignment stage contributes an additional 0.13% gain. These results indicate that ranking-aware alignment effectively synchronizes semantic reasoning with ranking objectives, significantly enhancing both prediction accuracy and service quality in real-world proactive recommendation systems.
- Abstract(参考訳): アクティブな意図予測は、現在のEコマースチャットボットにおいて重要な機能であり、行動信号やコンテキスト信号からユーザニーズを予測することで、"ゼロクエリ"レコメンデーションを可能にする。
しかし,既存の産業システムは,(1)個別のユーザ特徴とチャットボットの知識ベース内の意味的意図の相違,(2)汎用LLM出力とタスク固有のランキングユーティリティの相違,という2つの根本的な課題に直面している。
これらの問題に対処するために,LLMに基づくセマンティック推論とクエリ拡張(QE)ランキングモデルを統合するクローズドループアライメントフレームワークであるRGAlign-Recを提案する。
また,LLMの潜伏推論を改良するためのフィードバックとして,下流のランキング信号を利用する多段階学習パラダイムであるRGA(Ranning-Guided Alignment)を導入する。
Shopeeの大規模産業データセットに関する大規模な実験によると、RGAlign-RecはGAUCで0.12%の上昇を達成し、エラー率を3.52%、Recall@3で0.56%改善した。
クエリ強化モデル(QE-Rec)は最初、CTRを0.98%改善し、その後にランク付け誘導アライメントステージは0.13%向上しました。
これらの結果は,ランキングアライメントが意味的推論とランキング目標を効果的に同期させ,現実のプロアクティブレコメンデーションシステムにおける予測精度とサービス品質の両方を著しく向上させることを示す。
関連論文リスト
- Generative Reasoning Re-ranker [24.386586034456673]
Generative Reasoning Reranker (GR2)は3段階のトレーニングパイプラインを備えたエンドツーエンドのフレームワークである。
GR2は、慎重に設計されたプロンプトとリジェクションサンプリングにより高品質な推論トレースを生成する。
2つの実世界のデータセットの実験では、GR2の有効性が示されている。
論文 参考訳(メタデータ) (2026-02-08T02:12:24Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。
既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。
そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。