論文の概要: Thinking Broad, Acting Fast: Latent Reasoning Distillation from Multi-Perspective Chain-of-Thought for E-Commerce Relevance
- arxiv url: http://arxiv.org/abs/2601.21611v1
- Date: Thu, 29 Jan 2026 12:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.796538
- Title: Thinking Broad, Acting Fast: Latent Reasoning Distillation from Multi-Perspective Chain-of-Thought for E-Commerce Relevance
- Title(参考訳): ブロード, 行動が速い: 電子商取引関係の多面的連鎖からの蒸留反応
- Authors: Baopu Qiu, Hao Chen, Yuanrong Wu, Changtong Zan, Chao Wei, Weiru Zhang, Xiaoyi Zeng,
- Abstract要約: 最適化パイプライン全体を通してChain-of-Thought(CoT)セマンティクスをうまく活用する新しいフレームワークを提案する。
蒸留にはLatent Reasoning Knowledge Distillation (LRKD)を導入する。
提案手法は,商業的パフォーマンスとユーザエクスペリエンスの両方において明らかなメリットを示すとともに,オフラインでの大幅な向上を実現している。
- 参考スコア(独自算出の注目度): 13.92735028342748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective relevance modeling is crucial for e-commerce search, as it aligns search results with user intent and enhances customer experience. Recent work has leveraged large language models (LLMs) to address the limitations of traditional relevance models, especially for long-tail and ambiguous queries. By incorporating Chain-of-Thought (CoT) reasoning, these approaches improve both accuracy and interpretability through multi-step reasoning. However, two key limitations remain: (1) most existing approaches rely on single-perspective CoT reasoning, which fails to capture the multifaceted nature of e-commerce relevance (e.g., user intent vs. attribute-level matching vs. business-specific rules); and (2) although CoT-enhanced LLM's offer rich reasoning capabilities, their high inference latency necessitates knowledge distillation for real-time deployment, yet current distillation methods discard the CoT rationale structure at inference, using it as a transient auxiliary signal and forfeiting its reasoning utility. To address these challenges, we propose a novel framework that better exploits CoT semantics throughout the optimization pipeline. Specifically, the teacher model leverages Multi-Perspective CoT (MPCoT) to generate diverse rationales and combines Supervised Fine-Tuning (SFT) with Direct Preference Optimization (DPO) to construct a more robust reasoner. For distillation, we introduce Latent Reasoning Knowledge Distillation (LRKD), which endows a student model with a lightweight inference-time latent reasoning extractor, allowing efficient and low-latency internalization of the LLM's sophisticated reasoning capabilities. Evaluated in offline experiments and online A/B tests on an e-commerce search advertising platform serving tens of millions of users daily, our method delivers significant offline gains, showing clear benefits in both commercial performance and user experience.
- Abstract(参考訳): 検索結果をユーザ意図と整合させ、顧客エクスペリエンスを向上させるため、eコマース検索には効果的な妥当性モデリングが不可欠である。
最近の研究は、特に長い尾とあいまいなクエリにおいて、従来の関連モデルの制限に対処するために、大きな言語モデル(LLM)を活用している。
CoT(Chain-of-Thought)推論を取り入れることで、これらの手法は多段階推論による精度と解釈性の両方を改善する。
しかし、(1)既存のほとんどのアプローチは、単一パースペクティブなCoT推論に依存しており、これはeコマースの関連性(例えば、ユーザインテント対属性レベルマッチング対ビジネス固有のルール)の多面的な性質を捉えていない。
これらの課題に対処するために、最適化パイプライン全体を通してCoTセマンティクスをよりうまく活用する新しいフレームワークを提案する。
具体的には,教師モデルでは,MPCoT(Multi-Perspective CoT)を活用し,様々な理性を生成するとともに,スーパーバイザードファインチューニング(SFT)と直接選好最適化(DPO)を組み合わせてより堅牢な推論器を構築する。
蒸留にはLLMの高度な推論能力の高効率かつ低レイテンシな内部化を可能にする軽量な推論時間遅延推論抽出器を備えた学生モデルを提供するLRKD(Latent Reasoning Knowledge Distillation)を導入する。
オフライン実験とeコマース検索広告プラットフォーム上でのオンラインA/Bテストにおいて、毎日何千万のユーザーを対象に評価を行い、商業的パフォーマンスとユーザエクスペリエンスの両方において明らかなメリットを示す。
関連論文リスト
- Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search [32.56725829132154]
関係モデリングにおいて、明示的推論が解釈可能性と性能の両方を高めることができるかどうかを考察する。
本研究では,Xiaohongshu 検索における関連性モデリングを推論タスクとして定式化する。
本稿では,強化学習(Reinforcement Learning, RL)に基づく学習フレームワークを導入し, GRMの基盤的推論能力を向上させる。
論文 参考訳(メタデータ) (2025-11-30T16:31:16Z) - From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance [20.096802351171377]
eコマース検索システムは,大規模言語モデルの直接適用を防止するために,厳格なレイテンシ要件に直面している。
本稿では,LLM から軽量で展開しやすい学生モデルへ推論機能を移行するための2段階推論蒸留フレームワークを提案する。
我々のフレームワークは、複数のメトリクスをまたいだ大幅な改善を実現し、その有効性と実用的価値を検証します。
論文 参考訳(メタデータ) (2025-10-13T06:46:43Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - LREF: A Novel LLM-based Relevance Framework for E-commerce [14.217396055372053]
本稿では,eコマース検索の妥当性を高めることを目的とした,LREF(LLM-based Relevance Framework)と呼ばれる新しいフレームワークを提案する。
大規模な実世界のデータセットのオフライン実験やオンラインA/Bテストを通じて,フレームワークの性能を評価する。
このモデルは有名なeコマースアプリケーションにデプロイされ、かなりの商業的利益をもたらした。
論文 参考訳(メタデータ) (2025-03-12T10:10:30Z) - Explainable LLM-driven Multi-dimensional Distillation for E-Commerce Relevance Learning [20.569157915157817]
電子商取引関連学習のための説明可能なLCM駆動多次元蒸留フレームワークを提案する。
提案手法は,eコマース関連学習性能とユーザエクスペリエンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-20T05:30:15Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。