論文の概要: Efficient Rationale-based Retrieval: On-policy Distillation from Generative Rerankers based on JEPA
- arxiv url: http://arxiv.org/abs/2604.23336v1
- Date: Sat, 25 Apr 2026 14:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.278192
- Title: Efficient Rationale-based Retrieval: On-policy Distillation from Generative Rerankers based on JEPA
- Title(参考訳): 効率的なRationale-based Retrieval:JEPAに基づくジェネレーティブ・リランカーからのオン・ポリティクス蒸留
- Authors: Teng Chen, Sheng Xu, Feixiang Guo, Xiaoyu Wang, Qingqing Gu, Hongyan Li, Luo Ji,
- Abstract要約: 論理に基づく検索は通常、クエリとドキュメントのペアのクロスエンコーディングを必要とする。
Rabtrieverはクエリとドキュメントをエンコードし、リランカに同等のクロスクエリドキュメント理解機能を提供する。
Rabtriever は MS MARCO や BEIR といった従来のベンチマークでよく一般化されている。
- 参考スコア(独自算出の注目度): 8.95939511590498
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unlike traditional fact-based retrieval, rationale-based retrieval typically necessitates cross-encoding of query-document pairs using large language models, incurring substantial computational costs. To address this limitation, we propose Rabtriever, which independently encodes queries and documents, while providing comparable cross query-document comprehension capabilities to rerankers. We start from training a LLM-based generative reranker, which puts the document prior to the query and prompts the LLM to generate the relevance score by log probabilities. We then employ it as the teacher of an on-policy distillation framework, with Rabtriever as the student to reconstruct the teacher's contextual-aware query embedding. To achieve this effect, Rabtriever is first initialized from the teacher, with parameters frozen. The Joint-Embedding Predictive Architecture (JEPA) paradigm is then adopted, which integrates a lightweight, trainable predictor between LLM layers and heads, projecting the query embedding into a new hidden space, with the document embedding as the latent vector. JEPA then minimizes the distribution difference between this projected embedding and the teacher embedding. To strengthen the sampling efficiency of on-policy distillation, we also add an auxiliary loss on the reverse KL of LLM logits, to reshape the student's logit distribution. Rabtriever optimizes the teacher's quadratic complexity on the document length to linear, verified both theoretically and empirically. Experiments show that Rabtriever outperforms different retriever baselines across diverse rationale-based tasks, including empathetic conversations and robotic manipulations, with minor accuracy degradation from the reranker. Rabtriever also generalizes well on traditional retrieval benchmarks such as MS MARCO and BEIR, with comparable performance to the best retriever baseline.
- Abstract(参考訳): 従来のファクトベースの検索とは異なり、論理ベースの検索は通常、大きな言語モデルを使用してクエリ-ドキュメントペアのクロスエンコーディングを必要とし、かなりの計算コストを発生させる。
この制限に対処するため,クエリとドキュメントを独立してエンコードするRabtrieverを提案する。
まず LLM ベースの生成リランカをトレーニングし,クエリの前に文書を配置し,ログの確率による関連点の生成を促す。
そして、それをオンライン蒸留フレームワークの教師として採用し、Rabtrieverを学生として、教師のコンテキスト対応クエリの埋め込みを再構築する。
この効果を達成するため、Rabtrieverはまず教師から初期化され、パラメータは凍結される。
次に、JEPA(Joint-Embedding Predictive Architecture)パラダイムが採用され、LLM層とヘッドの間に軽量でトレーニング可能な予測器を統合し、クエリの埋め込みを新しい隠れスペースに、ドキュメントの埋め込みを潜在ベクトルとして投影する。
次にJEPAは、このプロジェクションされた埋め込みと教師の埋め込みの間の分散の違いを最小限にする。
また, オンライン蒸留のサンプリング効率を高めるため, LLMロジットの逆KLに補助損失を加え, 生徒のロジット分布を再構築する。
ラブトリバーは、教師の文書長の二次的な複雑さを線形に最適化し、理論的にも経験的にも検証する。
実験の結果、Rabtrieverは共感的な会話やロボット操作など、さまざまな合理的なタスクにおいて、レトリバーベースラインよりも優れており、リランカーの精度はわずかであることがわかった。
Rabtriever は MS MARCO や BEIR などの従来の検索ベンチマークでもよく一般化されており、最高の検索基準に匹敵する性能である。
関連論文リスト
- AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation [35.70731674603417]
LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。
ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。
提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-23T14:14:43Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。
このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。
我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文 参考訳(メタデータ) (2024-12-21T13:19:15Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。