論文の概要: CoRank: LLM-Based Compact Reranking with Document Features for Scientific Retrieval
- arxiv url: http://arxiv.org/abs/2505.13757v2
- Date: Sun, 17 Aug 2025 00:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.972274
- Title: CoRank: LLM-Based Compact Reranking with Document Features for Scientific Retrieval
- Title(参考訳): CoRank: 科学的検索のためのドキュメント機能を備えたLLMベースのコンパクトリグレード
- Authors: Runchu Tian, Xueqiang Xu, Bowen Jin, SeongKu Kang, Jiawei Han,
- Abstract要約: 第一段階の検索はしばしば科学的領域において最適でないため、関連する文書は下位にランクされる。
我々は、科学検索のためのトレーニング不要でモデルに依存しないフレームワークであるCoRankを提案する。
- 参考スコア(独自算出の注目度): 30.341167520613197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific retrieval is essential for advancing scientific knowledge discovery. Within this process, document reranking plays a critical role in refining first-stage retrieval results. However, standard LLM listwise reranking faces challenges in the scientific domain. First-stage retrieval is often suboptimal in the scientific domain, so relevant documents are ranked lower. Meanwhile, conventional listwise reranking places the full text of candidates into the context window, limiting the number of candidates that can be considered. As a result, many relevant documents are excluded before reranking, constraining overall retrieval performance. To address these challenges, we explore semantic-feature-based compact document representations (e.g., categories, sections, and keywords) and propose CoRank, a training-free, model-agnostic reranking framework for scientific retrieval. It presents a three-stage solution: (i) offline extraction of document features, (ii) coarse-grained reranking using these compact representations, and (iii) fine-grained reranking on full texts of the top candidates from (ii). This integrated process addresses suboptimal first-stage retrieval: Compact representations allow more documents to fit within the context window, improving candidate set coverage, while the final fine-grained ranking ensures a more accurate ordering. Experiments on 5 academic retrieval datasets show that CoRank significantly improves reranking performance across different LLM backbones (average nDCG@10 from 50.6 to 55.5). Overall, these results underscore the synergistic interaction between information extraction and information retrieval, demonstrating how structured semantic features can enhance reranking in the scientific domain.
- Abstract(参考訳): 科学的知識発見の進展には科学的検索が不可欠である。
このプロセス内では、文書のランク付けが第一段階の検索結果を精査する上で重要な役割を担っている。
しかし、標準LLMは科学分野の課題に直面している。
第一段階の検索はしばしば科学的領域において最適でないため、関連する文書は下位にランクされる。
一方、従来のリストワイドでは、候補の完全なテキストをコンテキストウィンドウに配置し、考慮できる候補の数を制限している。
その結果、多くの関連文書が再分類前に除外され、全体の検索性能が制限される。
これらの課題に対処するために、セマンティック機能に基づくコンパクト文書表現(カテゴリ、セクション、キーワードなど)を検討し、科学検索のためのトレーニング不要でモデルに依存しないフレームワークであるCoRankを提案する。
3段階の解を提示する。
(i)文書の特徴のオフライン抽出
(二)これらのコンパクト表現を用いた粗粒再位、及び
(三)上位候補の全文の微調整
(II)。
コンパクトな表現により、より多くのドキュメントがコンテキストウィンドウに収まるようになり、候補セットのカバレッジが向上する。
5つの学術検索データセットの実験により、CoRankは異なるLLMバックボーン(平均nDCG@10を50.6から55.5まで)で性能を著しく改善することが示された。
全体として、これらの結果は情報抽出と情報検索の相乗的相互作用を強調し、構造的意味的特徴が科学領域における再ランクをいかに高めるかを示す。
関連論文リスト
- PRISM: Fine-Grained Paper-to-Paper Retrieval with Multi-Aspect-Aware Query Optimization [61.783280234747394]
PRISMは文書から文書への検索手法であり、クエリと候補文書の両方に対して、複数のきめ細かい表現を導入している。
SciFullBenchは、クエリと候補の両方のフルペーパーの完全かつセグメンテーションされたコンテキストが利用できる新しいベンチマークである。
実験の結果、PRISMは既存の検索基準よりも平均4.3%性能が向上した。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - A Comparison of Approaches for Imbalanced Classification Problems in the
Context of Retrieving Relevant Documents for an Analysis [0.0]
本研究は,クエリ拡張手法,トピックモデルに基づく分類規則,能動的および受動的教師あり学習を比較した。
その結果、ほとんどの研究環境におけるクエリ拡張手法とトピックモデルに基づく分類規則は、検索性能を向上するよりも低下する傾向にあることがわかった。
論文 参考訳(メタデータ) (2022-05-03T16:22:42Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。