論文の概要: PairSem: LLM-Guided Pairwise Semantic Matching for Scientific Document Retrieval
- arxiv url: http://arxiv.org/abs/2510.09897v1
- Date: Fri, 10 Oct 2025 22:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.677465
- Title: PairSem: LLM-Guided Pairwise Semantic Matching for Scientific Document Retrieval
- Title(参考訳): PairSem:科学文書検索のための LLM-Guided Pairwise Semantic Matching
- Authors: Wonbin Kweon, Runchu Tian, SeongKu Kang, Pengcheng Jiang, Zhiyong Lu, Jiawei Han, Hwanjo Yu,
- Abstract要約: Pairwise Semantic Matching (PairSem)は、関連するセマンティクスをエンティティとアスペクトのペアとして表現するフレームワークである。
複数のデータセットとレトリバーの実験により、PairSemは検索性能を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 41.064644438540135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific document retrieval is a critical task for enabling knowledge discovery and supporting research across diverse domains. However, existing dense retrieval methods often struggle to capture fine-grained scientific concepts in texts due to their reliance on holistic embeddings and limited domain understanding. Recent approaches leverage large language models (LLMs) to extract fine-grained semantic entities and enhance semantic matching, but they typically treat entities as independent fragments, overlooking the multi-faceted nature of scientific concepts. To address this limitation, we propose Pairwise Semantic Matching (PairSem), a framework that represents relevant semantics as entity-aspect pairs, capturing complex, multi-faceted scientific concepts. PairSem is unsupervised, base retriever-agnostic, and plug-and-play, enabling precise and context-aware matching without requiring query-document labels or entity annotations. Extensive experiments on multiple datasets and retrievers demonstrate that PairSem significantly improves retrieval performance, highlighting the importance of modeling multi-aspect semantics in scientific information retrieval.
- Abstract(参考訳): 科学的文書検索は、知識発見と様々な領域における研究を支援するための重要な課題である。
しかし、既存の密集検索手法は、総合的な埋め込みと限定的なドメイン理解に依存しているため、テキスト中の微細な科学的概念を捉えるのに苦労することが多い。
最近のアプローチでは、大きな言語モデル(LLM)を活用して、細粒度のセマンティックなエンティティを抽出し、セマンティックなマッチングを強化するが、一般的には、エンティティを独立した断片として扱い、科学概念の多面的な性質を見渡す。
この制限に対処するため,Pairwise Semantic Matching (PairSem) を提案する。
PairSemは教師なし、ベースレトリバーに依存しない、プラグアンドプレイで、クエリドキュメントラベルやエンティティアノテーションを必要とせずに、正確でコンテキスト対応のマッチングを可能にする。
複数のデータセットとレトリバーに関する大規模な実験により、PairSemは検索性能を大幅に改善し、科学情報検索におけるマルチアスペクトセマンティクスのモデル化の重要性を強調した。
関連論文リスト
- MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [55.486895951981566]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - Scientific Paper Retrieval with LLM-Guided Semantic-Based Ranking [23.23119083861653]
SemRankは効率的かつ効率的な紙検索フレームワークである。
クエリ理解と概念ベースのセマンティックインデックスを組み合わせる。
実験の結果、SemRankは様々なベースレトリバーの性能を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T22:49:18Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Inferring Scientific Cross-Document Coreference and Hierarchy with Definition-Augmented Relational Reasoning [7.086262532457526]
本稿では,全文文献を検索することで,概念記述の文脈依存的な定義を生成する手法を提案する。
さらに,2つの概念がどのように関連しているか,あるいは異なるのかを記述したリレーショナル定義を生成し,論文間のリンクの推論に関わる爆発に対処する効率的な再分類アプローチを設計する。
論文 参考訳(メタデータ) (2024-09-23T15:20:27Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Multi-Round Parsing-based Multiword Rules for Scientific OpenIE [18.163915930906693]
OpenIEは、被写体とオブジェクトの関係を記述するリレーショナルなフレーズを識別する。
本稿では,依存関係解析に基づく構造化情報抽出のルールについて述べる。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-04T14:17:48Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。