論文の概要: LLM-Based Compact Reranking with Document Features for Scientific Retrieval
- arxiv url: http://arxiv.org/abs/2505.13757v1
- Date: Mon, 19 May 2025 22:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.555186
- Title: LLM-Based Compact Reranking with Document Features for Scientific Retrieval
- Title(参考訳): 科学的検索のための文書機能を備えたLLM型コンパクトリグレード
- Authors: Runchu Tian, Xueqiang Xu, Bowen Jin, SeongKu Kang, Jiawei Han,
- Abstract要約: 我々は,CoRankと呼ばれる科学検索のためのトレーニング不要な,モデルに依存しないセマンティックリグレードフレームワークを提案する。
CoRankには3つのステージがある: ドキュメントレベルの機能のオフライン抽出、これらのコンパクト表現を使用した粗いリランク、そしてステージから上位候補のフルテキストに微妙なリランク。
LitSearchとCSFCubeの実験によると、CoRankは異なるLLMバックボーン間でのリランク性能を大幅に改善している。
- 参考スコア(独自算出の注目度): 30.341167520613197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific retrieval is essential for advancing academic discovery. Within this process, document reranking plays a critical role by refining first-stage retrieval results. However, large language model (LLM) listwise reranking faces unique challenges in the scientific domain. First-stage retrieval is often suboptimal in the scientific domain, so relevant documents are ranked lower. Moreover, conventional listwise reranking uses the full text of candidate documents in the context window, limiting the number of candidates that can be considered. As a result, many relevant documents are excluded before reranking, which constrains overall retrieval performance. To address these challenges, we explore compact document representations based on semantic features such as categories, sections, and keywords, and propose a training-free, model-agnostic reranking framework for scientific retrieval called CoRank. The framework involves three stages: (i) offline extraction of document-level features, (ii) coarse reranking using these compact representations, and (iii) fine-grained reranking on full texts of the top candidates from stage (ii). This hybrid design provides a high-level abstraction of document semantics, expands candidate coverage, and retains critical details required for precise ranking. Experiments on LitSearch and CSFCube show that CoRank significantly improves reranking performance across different LLM backbones, increasing nDCG@10 from 32.0 to 39.7. Overall, these results highlight the value of information extraction for reranking in scientific retrieval.
- Abstract(参考訳): 科学的検索は学術的な発見を促進するために不可欠である。
このプロセス内では、文書の更新は第一段階の検索結果を精査することで重要な役割を果たす。
しかし、大きな言語モデル (LLM) は、科学領域においてユニークな課題に直面している。
第一段階の検索はしばしば科学的領域において最適でないため、関連する文書は下位にランクされる。
さらに、従来のリストワイズでは、候補文書の全文をコンテキストウィンドウで使用し、考慮できる候補の数を制限している。
その結果、多くの関連文書が再分類前に除外され、全体の検索性能が制限される。
これらの課題に対処するために,カテゴリ,セクション,キーワードなどの意味的特徴に基づくコンパクトな文書表現について検討し,CoRankと呼ばれる科学検索のためのトレーニング不要でモデルに依存しないフレームワークを提案する。
フレームワークには3つのステージがある。
(i)文書レベルの特徴のオフライン抽出
(二)これらのコンパクト表現を用いて粗い格付けをし、
(三)ステージ上候補の全文の微調整
(II)。
このハイブリッドデザインは、ドキュメントセマンティクスのハイレベルな抽象化を提供し、候補カバレッジを拡張し、正確なランキングに必要な重要な詳細を保持する。
LitSearch と CSFCube の実験では、CoRank は異なる LLM バックボーン間のリランク性能を大幅に改善し、nDCG@10 が 32.0 から 39.7 に増加した。
これらの結果から, 科学的検索における情報抽出の価値が示唆された。
関連論文リスト
- Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - A Comparison of Approaches for Imbalanced Classification Problems in the
Context of Retrieving Relevant Documents for an Analysis [0.0]
本研究は,クエリ拡張手法,トピックモデルに基づく分類規則,能動的および受動的教師あり学習を比較した。
その結果、ほとんどの研究環境におけるクエリ拡張手法とトピックモデルに基づく分類規則は、検索性能を向上するよりも低下する傾向にあることがわかった。
論文 参考訳(メタデータ) (2022-05-03T16:22:42Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。