論文の概要: From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance
- arxiv url: http://arxiv.org/abs/2510.11056v1
- Date: Mon, 13 Oct 2025 06:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.226946
- Title: From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance
- Title(参考訳): LLMの推論からBERT:検索関連性のための2段階蒸留フレームワーク
- Authors: Runze Xia, Yupeng Ji, Yuxi Zhou, Haodong Liu, Teng Zhang, Piji Li,
- Abstract要約: eコマース検索システムは,大規模言語モデルの直接適用を防止するために,厳格なレイテンシ要件に直面している。
本稿では,LLM から軽量で展開しやすい学生モデルへ推論機能を移行するための2段階推論蒸留フレームワークを提案する。
我々のフレームワークは、複数のメトリクスをまたいだ大幅な改善を実現し、その有効性と実用的価値を検証します。
- 参考スコア(独自算出の注目度): 20.096802351171377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-service relevance prediction in e-commerce search systems faces strict latency requirements that prevent the direct application of Large Language Models (LLMs). To bridge this gap, we propose a two-stage reasoning distillation framework to transfer reasoning capabilities from a powerful teacher LLM to a lightweight, deployment-friendly student model. In the first stage, we address the limitations of general-purpose LLMs by constructing a domain-adapted teacher model. This is achieved through a three-step process: domain-adaptive pre-training to inject platform knowledge, supervised fine-tuning to elicit reasoning skills, and preference optimization with a multi-dimensional reward model to ensure the generation of reliable and preference-aligned reasoning paths. This teacher can then automatically annotate massive query-service pairs from search logs with both relevance labels and reasoning chains. In the second stage, to address the challenges of architectural heterogeneity in standard distillation, we introduce Contrastive Reasoning Self-Distillation (CRSD). By modeling the behavior of the same student model under "standard" and "reasoning-augmented" inputs as a teacher-student relationship, CRSD enables the lightweight model to internalize the teacher's complex decision-making mechanisms without needing the explicit reasoning path at inference. Offline evaluations and online A/B testing in the Meituan search advertising system demonstrate that our framework achieves significant improvements across multiple metrics, validating its effectiveness and practical value.
- Abstract(参考訳): eコマース検索システムにおけるクエリサービス関連性予測は、LLM(Large Language Models)の直接適用を防止するために、厳格なレイテンシ要件に直面している。
このギャップを埋めるために、強力な教師LLMから軽量で展開しやすい学生モデルに推論能力を移すための2段階の推論蒸留フレームワークを提案する。
最初の段階では、ドメイン適応型教師モデルを構築することで汎用LLMの限界に対処する。
これは、プラットフォーム知識を注入するためのドメイン適応事前トレーニング、推論スキルを引き出すための微調整の監督、信頼性と優先順位に整合した推論パスの生成を保証するための多次元報酬モデルによる選好最適化の3段階のプロセスによって達成される。
この教師は、関連するラベルと推論チェーンの両方で、検索ログから大量のクエリサービスペアを自動的に注釈付けすることができる。
第2段階では, 標準蒸留における構造的不均一性の課題に対処するため, コントラスト共振自己蒸留(CRSD)を導入する。
教師-学生関係としての「標準」と「推論強化」の入力の下で同じ学生モデルの振る舞いをモデル化することにより、CRSDは推論時の明示的な推論経路を必要とせずに、教師の複雑な意思決定機構を内部化する軽量モデルを可能にする。
Meituanの検索広告システムにおけるオフライン評価とオンラインA/Bテストは、我々のフレームワークが複数の指標にまたがる大幅な改善を実現し、その有効性と実用的価値を検証していることを示している。
関連論文リスト
- Self-Anchor: Large Language Model Reasoning via Step-by-step Attention Alignment [7.411619300683893]
本稿では、推論の固有の構造を利用して注意を喚起する新しいパイプラインであるSelf-Anchorを提案する。
Self-Anchorは推論軌跡を構造化された計画に分解し、モデルの注意を最も関連する推論ステップに自動的に合わせる。
特に、Self-Anchorは、非推論モデルと特別な推論モデルの間のパフォーマンスギャップを著しく減らします。
論文 参考訳(メタデータ) (2025-10-03T17:56:33Z) - Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。