論文の概要: Prism-Reranker: Beyond Relevance Scoring -- Jointly Producing Contributions and Evidence for Agentic Retrieval
- arxiv url: http://arxiv.org/abs/2604.23734v1
- Date: Sun, 26 Apr 2026 14:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.528726
- Title: Prism-Reranker: Beyond Relevance Scoring -- Jointly Producing Contributions and Evidence for Agentic Retrieval
- Title(参考訳): Prism-Reranker:Beyond Relevance Scoring -- エージェント検索におけるコントリビューションとエビデンスの共同生成
- Authors: Dun Zhang,
- Abstract要約: Qwen3.5上に4つのサイズ(0.8B, 2B, 4B, 9B)で構築されたリランカーモデルのファミリーであるPrism-Rerankerを紹介する。
標準のye/no関連判断に加えて、評決がYesであるたびに、モデルはドキュメントがクエリをどのように助けるかを要約したコントリビューションステートメントを発行する。
同じレシピが既存のLCMベースのリランカーを拡張し、Qwen3-Reranker-4Bのコントリビューションとエビデンス機能を強化している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern retrieval pipelines increasingly serve downstream consumers like retrieval-augmented generation (RAG) and autonomous agents that need more than a scalar relevance score. A reranker that only tells the caller "how relevant" forces the agent to dump entire documents into the language-model context, wasting tokens on tangential passages and boilerplate. We introduce Prism-Reranker, a family of reranker models built on Qwen3.5 at four sizes (0.8B, 2B, 4B, 9B) that goes beyond scalar scoring. In addition to the standard yes/no relevance judgement, whenever the verdict is yes the model emits (i) a contribution statement summarizing how the document helps the query, and (ii) an evidence passage: a self-contained rewrite that preserves every query-relevant signal while discarding noise. Prism-Reranker is trained with a hybrid objective combining point-wise distillation from a strong commercial reranker API with supervised fine-tuning on contribution and evidence targets. We curate training data from KaLM-Embedding's open-source aggregation, augmented with real web documents retrieved via commercial search APIs for open-domain queries and LLM-synthesized variants, and rewrite a portion of queries into keyword-style reformulations to adapt the model to agent-issued traffic. To reconcile inconsistent labels across open corpora and obtain crisp binary supervision, we relabel data with an LLM-as-Judge ensemble aggregating votes from five frontier LLMs. On a QA subset of BEIR and on an LLM-judged evaluation of contribution and evidence quality, Prism-Reranker attains solid results across all four sizes. We further show that the same recipe extends existing LLM-based rerankers, augmenting Qwen3-Reranker-4B with contribution and evidence capabilities while improving its average BEIR-QA NDCG@10 by +1.54 over the base model. Model weights, training recipe, and evaluation suite are released.
- Abstract(参考訳): 現代の検索パイプラインは、検索強化世代(RAG)やスカラー関連スコア以上の自律エージェントのような下流の消費者に、ますます役立っている。
呼び出し元に「いかに関係があるか」だけを伝えるリランカは、エージェントにすべての文書を言語モデルコンテキストにダンプさせ、接尾辞やボイラープレートにトークンを無駄にする。
Prism-RerankerはQwen3.5上に4つのサイズ(0.8B, 2B, 4B, 9B)で構築されたスカラースコアを超えるリランカーモデルである。
標準のye/no関連判断に加えて、評決がYesであるたびに、モデルは出力する。
i) 文書がクエリをどのように助けるかを要約したコントリビューション文及び
(ii)エビデンス・パス:ノイズを取り除きながら全てのクエリ関連信号を保存する自己完結型リライト。
Prism-Rerankerは、強力な商用リランカAPIからのポイントワイド蒸留と、コントリビューションとエビデンスターゲットの監督された微調整を組み合わせたハイブリッドな目標で訓練される。
我々は、KaLM-Embeddingのオープンソースアグリゲーションからのトレーニングデータをキュレートし、オープンドメインクエリとLLM合成変種のための商用検索APIを介して検索された実際のWebドキュメントを付加し、クエリの一部をキーワードスタイルの書き換えに書き換え、エージェントが発行したトラフィックに適応させる。
オープンコーパスをまたいで一貫性のないラベルを調整し、クリップなバイナリ管理を得るため、5つのフロンティア LLM から投票を集約する LLM-as-Judge アンサンブルを用いてデータをレバーリングする。
BEIRのQAサブセットとLLM-judgedによるコントリビューションとエビデンスの品質の評価では、Prism-Rerankerは4つのサイズでしっかりとした結果が得られる。
さらに,このレシピは既存のLCMベースのリランカーを拡張し,Qwen3-Reranker-4Bのコントリビューションとエビデンス能力を高めつつ,平均BEIR-QA NDCG@10をベースモデルで1.54倍改善することを示した。
モデルウェイト、トレーニングレシピ、評価スイートがリリースされている。
関連論文リスト
- Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation [51.55755193937205]
提案するQREAMは,検索した文書を事実を保存しながら質問指向のスタイルで整列するスタイル制御リライタである。
本フレームワークは,(1) 反復的書き換え探索にスタイリスティックシードを用いたQREAM-ICL,(2) ICL出力から抽出した軽量学生モデルQREAM-FTの2段階からなる。
論文 参考訳(メタデータ) (2026-04-19T08:39:21Z) - One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States [5.647839536820347]
本稿では,隠れ状態を直接埋め込み空間にマッピングする軽量プロジェクションヘッドを提案する。
QReCCの会話型検索ベンチマークの実験では、標準生成コードパイプラインと比較して、Recall@10とMRR@10が競合している。
論文 参考訳(メタデータ) (2026-03-09T14:25:35Z) - RECAP: Reproducing Copyrighted Data from LLMs Training with an Agentic Pipeline [9.49236542025774]
本稿では,大規模な言語モデルから記憶されたトレーニングデータを抽出し,検証するためのエージェントパイプラインRECAPを提案する。
RECAPの中心にはフィードバック駆動のループがあり、初期抽出の試みは二次言語モデルによって評価される。
我々は、30冊以上の本にまたがる新しいベンチマークであるEchoTrace上でRECAPを評価し、その結果、RECAPがシングルイテレーションアプローチよりも大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-10-29T20:36:37Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [22.50450558103786]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。