論文の概要: Improving Scientific Document Retrieval with Academic Concept Index
- arxiv url: http://arxiv.org/abs/2601.00567v1
- Date: Fri, 02 Jan 2026 04:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.520059
- Title: Improving Scientific Document Retrieval with Academic Concept Index
- Title(参考訳): 学術概念指標による科学的文書検索の改善
- Authors: Jeyun Lee, Junhyoung Lee, Wonbin Kweon, Bowen Jin, Yu Zhang, Susik Yoon, Dongha Lee, Hwanjo Yu, Jiawei Han, Seongku Kang,
- Abstract要約: 汎用ドメインレトリバーを科学領域に適用することは、大規模ドメイン固有の関連アノテーションが不足しているため困難である。
最近のアプローチでは、これらの問題を2つの独立した方向で解決している。
本稿では,論文から重要な概念を抽出し,学術分類学に導かれる概念を整理する学術概念索引を紹介する。
- 参考スコア(独自算出の注目度): 47.95234352955763
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adapting general-domain retrievers to scientific domains is challenging due to the scarcity of large-scale domain-specific relevance annotations and the substantial mismatch in vocabulary and information needs. Recent approaches address these issues through two independent directions that leverage large language models (LLMs): (1) generating synthetic queries for fine-tuning, and (2) generating auxiliary contexts to support relevance matching. However, both directions overlook the diverse academic concepts embedded within scientific documents, often producing redundant or conceptually narrow queries and contexts. To address this limitation, we introduce an academic concept index, which extracts key concepts from papers and organizes them guided by an academic taxonomy. This structured index serves as a foundation for improving both directions. First, we enhance the synthetic query generation with concept coverage-based generation (CCQGen), which adaptively conditions LLMs on uncovered concepts to generate complementary queries with broader concept coverage. Second, we strengthen the context augmentation with concept-focused auxiliary contexts (CCExpand), which leverages a set of document snippets that serve as concise responses to the concept-aware CCQGen queries. Extensive experiments show that incorporating the academic concept index into both query generation and context augmentation leads to higher-quality queries, better conceptual alignment, and improved retrieval performance.
- Abstract(参考訳): 汎用ドメインレトリバーを科学領域に適応させることは、大規模なドメイン固有の関連アノテーションの不足と、語彙や情報ニーズのかなりのミスマッチにより困難である。
近年のアプローチでは,大きな言語モデル(LLM)を利用する2つの独立した方向から,(1)微調整のための合成クエリの生成,(2)関連マッチングをサポートするための補助的コンテキストの生成という課題に対処している。
しかし、どちらの方向も科学的文書に埋め込まれた多様な学術概念を見落とし、しばしば冗長あるいは概念的に狭いクエリやコンテキストを生み出す。
この制限に対処するために、論文から重要な概念を抽出し、学術分類学で導かれた概念を整理する学術概念索引を導入する。
この構造化インデックスは、両方の方向を改善する基盤として機能する。
まず、概念カバレッジベース生成(CCQGen)による合成クエリ生成を強化し、LLMを未発見概念に適応的に条件付けし、より広い概念カバレッジを持つ補完クエリを生成する。
第2に、概念を意識したCCQGenクエリに対する簡潔な応答として機能する文書スニペットのセットを活用する、概念中心の補助的コンテキスト(CCExpand)によるコンテキスト拡張を強化する。
集約的な実験により、学術的な概念インデックスをクエリ生成とコンテキスト拡張の両方に組み込むことで、高品質なクエリ、より優れた概念的アライメント、検索性能が向上することが示された。
関連論文リスト
- PairSem: LLM-Guided Pairwise Semantic Matching for Scientific Document Retrieval [41.064644438540135]
Pairwise Semantic Matching (PairSem)は、関連するセマンティクスをエンティティとアスペクトのペアとして表現するフレームワークである。
複数のデータセットとレトリバーの実験により、PairSemは検索性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-10T22:21:49Z) - Query Expansion in the Age of Pre-trained and Large Language Models: A Comprehensive Survey [21.764997953030857]
現代の情報検索は、多種多様な動的コーパスであいまいなクエリを調整しなければならない。
インジェクションのポイント、接地と相互作用、学習とアライメント、知識グラフの統合の4つの相補的な側面に沿って、最近の作業を組織化します。
この調査では、Web検索、バイオメディシン、eコマース、オープンドメイン質問応答/RAG、会話とコード検索、言語間設定など、7つの側面にわたる従来のQEと神経質なQEを比較した。
論文 参考訳(メタデータ) (2025-09-09T14:31:11Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Improving Scientific Document Retrieval with Concept Coverage-based Query Set Generation [49.29180578078616]
概念カバレッジに基づくクエリセット生成(CCQGen)フレームワークは、ドキュメントの概念を包括的に網羅したクエリセットを生成するように設計されている。
従来のクエリでは十分にカバーされていない概念を識別し,その後のクエリ生成の条件として活用する。
このアプローチは、それぞれの新しいクエリをガイドして、以前のクエリを補完し、ドキュメントの徹底的な理解を支援する。
論文 参考訳(メタデータ) (2025-02-16T15:59:50Z) - Taxonomy-guided Semantic Indexing for Academic Paper Search [51.07749719327668]
TaxoIndexは学術論文検索のためのセマンティックインデックスフレームワークである。
学術分類学によって導かれる意味指標として、論文から重要な概念を整理する。
既存の高密度レトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-10-25T00:00:17Z) - Inferring Scientific Cross-Document Coreference and Hierarchy with Definition-Augmented Relational Reasoning [7.086262532457526]
本稿では,全文文献を検索することで,概念記述の文脈依存的な定義を生成する手法を提案する。
さらに,2つの概念がどのように関連しているか,あるいは異なるのかを記述したリレーショナル定義を生成し,論文間のリンクの推論に関わる爆発に対処する効率的な再分類アプローチを設計する。
論文 参考訳(メタデータ) (2024-09-23T15:20:27Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。