論文の概要: Retrieval-Feedback-Driven Distillation and Preference Alignment for Efficient LLM-based Query Expansion
- arxiv url: http://arxiv.org/abs/2603.13776v1
- Date: Sat, 14 Mar 2026 05:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.398632
- Title: Retrieval-Feedback-Driven Distillation and Preference Alignment for Efficient LLM-based Query Expansion
- Title(参考訳): LLMに基づく効率的なクエリ拡張のための検索フィードバック駆動蒸留と優先調整
- Authors: Minghan Li, Guodong Zhou,
- Abstract要約: 強力な教師モデルからコンパクトな学生モデルに検索フレンドリーな拡張行動を伝達するために,検索フィードバック駆動のフレームワークを提案する。
次に、nDCG@10差分に応じて、選択/退避展開ペアを自動生成する検索メトリック駆動戦略を導入する。
TREC DL19/20/21 と MIRACL-zh の実験により,提案手法は推論コストを大幅に削減しつつ,高い検索効率を保っていることが示された。
- 参考スコア(独自算出の注目度): 20.96368967546077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have recently enabled a generative paradigm for query expansion, but their high inference cost makes direct deployment difficult in practical retrieval systems. To address this issue, a retrieval-feedback-driven distillation and preference-alignment framework is proposed to transfer retrieval-friendly expansion behavior from a strong teacher model to a compact student model. Rather than relying on few-shot exemplars at inference time, the framework first leverages two complementary types of teacher-generated expansions, produced under zero-shot and few-shot prompting conditions, as supervision signals for distillation and as candidate pools for preference construction. A retrieval-metric-driven strategy is then introduced to automatically form chosen/rejected expansion pairs according to nDCG@10 differences, and Direct Preference Optimization is applied to explicitly align generation preferences with retrieval objectives. Experiments on TREC DL19/20/21 and MIRACL-zh show that the proposed approach preserves strong retrieval effectiveness while substantially reducing inference cost. In particular, the distilled Qwen3-4B model reaches about 97% of the teacher (DeepSeek-685B) model's nDCG@10 performance on DL19, and remains effective on the Chinese MIRACL-zh benchmark, demonstrating strong practicality across both English and Chinese retrieval settings.
- Abstract(参考訳): 大規模言語モデルは近年,クエリ拡張のための生成パラダイムを実現しているが,その推論コストが高いため,実用的な検索システムでは直接デプロイが困難である。
この問題を解決するために,検索フィードバック駆動型蒸留・選好調整フレームワークを提案し,検索に適した拡張挙動を強力な教師モデルからコンパクトな学生モデルに伝達する。
このフレームワークは、推論時に数発の例に頼らず、まずゼロショットと数発のプロンプト条件下で生成される2つの相補的なタイプの教師生成拡張を、蒸留の監視信号や選好構築の候補プールとして活用する。
次に、nDCG@10差分に応じて選択/退避展開ペアを自動生成する検索メトリック駆動型戦略を導入し、直接選好最適化を適用して、検索目的と生成選好を明示的に整合させる。
TREC DL19/20/21 と MIRACL-zh の実験により,提案手法は推論コストを大幅に削減しつつ,高い検索効率を保っていることが示された。
特に、蒸留したQwen3-4Bモデルは、DL19上での教師(DeepSeek-685B)モデルのnDCG@10のパフォーマンスの約97%に達する。
関連論文リスト
- Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance [20.096802351171377]
eコマース検索システムは,大規模言語モデルの直接適用を防止するために,厳格なレイテンシ要件に直面している。
本稿では,LLM から軽量で展開しやすい学生モデルへ推論機能を移行するための2段階推論蒸留フレームワークを提案する。
我々のフレームワークは、複数のメトリクスをまたいだ大幅な改善を実現し、その有効性と実用的価値を検証します。
論文 参考訳(メタデータ) (2025-10-13T06:46:43Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - R$^2$ec: Towards Large Recommender Models with Reasoning [59.32598867813266]
R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - LLMQuoter: Enhancing RAG Capabilities Through Efficient Quote Extraction From Large Contexts [2.685668802278156]
LLMQuoterは、レトリーバル拡張生成(RAG)を強化するために設計された軽量蒸留モデルである。
LLaMA-3Bアーキテクチャをベースとして、HotpotQAの15,000サンプルのサブセット上にLoRA(Lo-Rank Adaptation)を微調整し、LLMQuoterは"quote-first-then-answer"戦略を採用し、キュレートされたスニペットを推論モデルに渡す前に重要な引用を効率的に識別する。
このワークフローは認知的オーバーヘッドを減らし、Retrieval-Augmented Fine-Tuning (RAFT)のようなフルコンテキストアプローチを上回り、小言語と大言語の両方で20ポイント以上の精度向上を達成する。
論文 参考訳(メタデータ) (2025-01-09T20:01:15Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。