論文の概要: Scalable In-context Ranking with Generative Models
- arxiv url: http://arxiv.org/abs/2510.05396v1
- Date: Mon, 06 Oct 2025 21:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.000008
- Title: Scalable In-context Ranking with Generative Models
- Title(参考訳): 生成モデルによるスケーラブルなインコンテキストランク付け
- Authors: Nilesh Gupta, Chong You, Srinadh Bhojanapalli, Sanjiv Kumar, Inderjit Dhillon, Felix Yu,
- Abstract要約: In-context Ranking (ICR)は情報検索(IR)の新たなパラダイムである
観測された文書間ブロック間隔をアーキテクチャ的に拡張することで,LLMの注意操作に適応する新しい方法であるBlockRankを紹介する。
BEIR、MSMarco、NQをMistral-7Bで実験したところ、FLARE Mistralは既存のSOTAリストワイドローダにマッチするか、上回っていることがわかった。
- 参考スコア(独自算出の注目度): 38.41016998260796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context Ranking (ICR) is an emerging paradigm for Information Retrieval (IR), which leverages contextual understanding of LLMs by directly incorporating the task description, candidate documents, and the query into the model's input prompt and tasking the LLM to identify relevant document(s). While it is effective, efficiency is a significant challenge in this paradigm, especially as the candidate list grows due to quadratic/super-linear scaling of attention operation with context length. To this end, this paper first identifies inherent and exploitable structures in the attention of LLMs finetuned for ICR: (1) inter-document block sparsity: attention is dense within each document block but sparse across different documents in the context; and (2) query-document block relevance: the attention scores from certain query tokens to a document block in middle layers strongly correlate with that document's actual relevance. Motivated by these observations, we introduce BlockRank (Blockwise In-context Ranking), a novel method that adapts the attention operation in an LLM by (a) architecturally enforcing the observed inter-document block sparsity, reducing attention complexity from quadratic to linear without loss in performance, and (b) optimizing query-document block relevance for true relevant documents during fine-tuning using an auxiliary contrastive training objective, improving retrieval in attention. Experiments on BEIR, MSMarco and NQ with Mistral-7B demonstrate that FLARE Mistral matches or outperforms existing SOTA listwise rankers and controlled fine-tuned baseline while being significantly more efficient at inference (4.7x for 100 MSMarco documents in context) and scaling gracefully to long-context shortlists, around 500 documents in-context (approximately 100K context length) within a second, presenting a scalable and effective solution for ICR.
- Abstract(参考訳): In-context Ranking (ICR) は情報検索(IR)の新たなパラダイムであり、タスク記述、候補文書、クエリを直接モデルの入力プロンプトに組み込んで、関連する文書を識別する。
有効ではあるが、特に、文脈長の注意操作の2次/超線形スケーリングにより、候補リストが大きくなるにつれて、このパラダイムでは効率が重要な課題である。
本研究の目的は,(1)文書間ブロックの空間性:各ドキュメントブロック内では注目は密集しているが,コンテキスト内の異なるドキュメント間では疎通する;(2)クエリ文書ブロックの関連性:特定のクエリトークンから中間層におけるドキュメントブロックへの注意スコアは,そのドキュメントの実際の関連性に強く相関する。
これらの観測から得られたBlockRank(Blockwise In-context Ranking)は,LLMにおける注意操作に適応する新しい手法である。
(a)観測された文書間ブロック間隔を建築的に実施し、性能を損なうことなく注意複雑性を2次から線形に低減し、
b) 補助的コントラスト訓練目標を用いて微調整中の真の関連文書に対するクエリ文書ブロック関連性を最適化し、注意の検索を改善する。
BEIR、MSMarco、NQのMistral-7Bによる実験では、FLARE Mistralは既存のSOTAリストワイドなランキングと制御されたベースラインにマッチし、推論(コンテキストにおける100のMSMarco文書の4.7倍)と長文のショートリストに優雅にスケールし、約500のドキュメント(約100Kコンテキスト長)を1秒以内で出力し、ICRのスケーラブルで効率的なソリューションを提示した。
関連論文リスト
- FinCPRG: A Bidirectional Generation Pipeline for Hierarchical Queries and Rich Relevance in Financial Chinese Passage Retrieval [24.385110254247458]
本稿では,doc内およびクロスdoc内の両方のシナリオに対して,3段階の階層型クエリを生成することを目的とした双方向生成パイプラインを提案する。
我々は、約1.3万の中国の金融調査レポートから、金融パス検索検索データセットを構築した。
論文 参考訳(メタデータ) (2025-08-04T09:12:45Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization [18.13855430873805]
現在の手法では、検索プロセスの後にトランケーションを適用してコンテキスト長に適合させる。
本稿では,クエリ選択と文書ランキングを統合した検索に基づく新しいフレームワークを提案する。
我々は、複数のMDSデータセット上でのフレームワークを評価し、ROUGEメトリクスの一貫した改善を実証した。
論文 参考訳(メタデータ) (2025-04-23T13:41:10Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Layer-of-Thoughts Prompting (LoT): Leveraging LLM-Based Retrieval with Constraint Hierarchies [0.3946282433423277]
Layer-of-Thoughts Prompting (LoT)は、制約階層を使用して、所定のクエリに対する候補応答をフィルタリングし、精査する。
LoTは情報検索タスクの精度と理解性を著しく改善する。
論文 参考訳(メタデータ) (2024-10-16T01:20:44Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。