論文の概要: FGR-ColBERT: Identifying Fine-Grained Relevance Tokens During Retrieval
- arxiv url: http://arxiv.org/abs/2604.00242v1
- Date: Tue, 31 Mar 2026 21:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.725222
- Title: FGR-ColBERT: Identifying Fine-Grained Relevance Tokens During Retrieval
- Title(参考訳): FGR-ColBERT:検索時の微粒化関連トークンの同定
- Authors: Antonín Jarolím, Martin Fajčík,
- Abstract要約: 文書検索は関連文書を識別するが、特定の関連スパンなど詳細な証拠は提供しない。
FGR-ColBERTは,LLMから抽出した微細な関連信号を直接検索関数に統合するColBERT検索モデルである。
MS MARCOの実験では、FGR-ColBERT (110M) は64.5のトークンレベルF1を達成し、約245倍小さいにもかかわらず、Gemma 2 (27B) の62.8を超えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document retrieval identifies relevant documents but does not provide fine-grained evidence cues, such as specific relevant spans. A possible solution is to apply an LLM after retrieval; however, this introduces significant computational overhead and limits practical deployment. We propose FGR-ColBERT, a modification of ColBERT retrieval model that integrates fine-grained relevance signals distilled from an LLM directly into the retrieval function. Experiments on MS MARCO show that FGR-ColBERT (110M) achieves a token-level F1 of 64.5, exceeding the 62.8 of Gemma 2 (27B), despite being approximately 245 times smaller. At the same time, it preserves retrieval effectiveness (99% relative Recall@50) and remains efficient, incurring only a ~1.12x latency overhead compared to the original ColBERT.
- Abstract(参考訳): 文書検索は関連文書を識別するが、特定の関連スパンなど詳細な証拠は提供しない。
検索後に LLM を適用する方法が考えられるが、これは計算オーバーヘッドが大幅に増加し、実用的な展開が制限される。
FGR-ColBERTは,LLMから抽出した微細な関連信号を直接検索関数に統合するColBERT検索モデルである。
MS MARCOの実験では、FGR-ColBERT (110M) は64.5のトークンレベルF1を達成し、Gemma 2 (27B) の62.8を超えている。
同時に、検索効率(99%の相対Recall@50)を保ち、元のColBERTに比べて1.12倍の遅延オーバーヘッドしか発生しない。
関連論文リスト
- Test-Time Strategies for More Efficient and Accurate Agentic RAG [58.44913384057518]
Retrieval-Augmented Generation (RAG) システムは複雑なマルチホップ問題に直面している。
このような手法は、以前に処理された情報の反復的な検索を含む非効率性を導入することができる。
本稿では,これらの問題を軽減するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
論文 参考訳(メタデータ) (2026-03-12T19:18:59Z) - Single-Turn LLM Reformulation Powered Multi-Stage Hybrid Re-Ranking for Tip-of-the-Tongue Known-Item Retrieval [3.976291254896486]
本稿では,汎用8Bパラメータ LLM への単一呼び出しをクエリ再構成に用いることを提案する。
本手法は,初回リコールが不十分なため,Pseudo-Relevance Feedbackがフェールした場合に有効である。
2025 TREC-ToTデータセットの実験により、生クエリは性能が劣る一方、軽量な検索前変換によりリコールが20.61%向上することが示された。
論文 参考訳(メタデータ) (2026-02-10T21:59:10Z) - Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval [2.159285655678094]
Col-Banditは、Pop-K$識別問題として再ランク付けすることで、この計算負担を軽減するクエリ時プルーニングアルゴリズムである。
ドキュメント全体やトークンをオフラインにプルークする粗い粒度のアプローチとは異なり、Col-Banditはオンザフライで相互作用行列をスペーサーする。
実験の結果、Col-Bandit は MaxSim FLOPs を最大 5$times$ まで下げながらランキングの忠実さを保っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T21:27:01Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity [88.78750571970232]
本稿では,クエリ文書マッチングに対する高密度検索者の認識を改善するために,$texttMixGR$を紹介する。
$texttMixGR$は、粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
論文 参考訳(メタデータ) (2024-07-15T13:04:09Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - SPLATE: Sparse Late Interaction Retrieval [13.607085390630647]
SPLATEは、MLMアダプタを学習するColBERTv2モデルの軽量化である。
パイプラインはPLAID ColBERTv2エンジンと同じ効率を10ms以下で検索可能な50の文書を再ランク付けすることで実現している。
論文 参考訳(メタデータ) (2024-04-22T07:51:13Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized
Late Interactions using Enhanced Reduction [10.749746283569847]
ColBERTerは、文脈化された遅延相互作用(ColBERT)と強化されたリダクションを用いたニューラル検索モデルである。
マルチベクタコンポーネントのために、ColBERTerは、各ドキュメントの用語に対するユニークな全ワード表現を学習することで、ドキュメントごとの格納数を減らす。
MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。
論文 参考訳(メタデータ) (2022-03-24T14:28:07Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。