論文の概要: Ontology-Guided Query Expansion for Biomedical Document Retrieval using Large Language Models
- arxiv url: http://arxiv.org/abs/2508.11784v1
- Date: Fri, 15 Aug 2025 19:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.372908
- Title: Ontology-Guided Query Expansion for Biomedical Document Retrieval using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた生体文書検索のためのオントロジーガイドクエリ拡張
- Authors: Zabir Al Nazi, Vagelis Hristidis, Aaron Lawson McLean, Jannat Ara Meem, Md Taukir Azam Chowdhury,
- Abstract要約: BMQExpanderは、UMLSメタセサウルスからの医療知識(定義と関係)と大規模言語モデル(LLM)の生成能力を組み合わせた、検索効率を向上させる新しいクエリ拡張パイプラインである。
我々は,BMQExpanderが3つの一般的なバイオメディカル情報検索(IR)ベンチマークにおいて,より優れた検索性能を有することを示す。
- 参考スコア(独自算出の注目度): 2.4897806364302633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective Question Answering (QA) on large biomedical document collections requires effective document retrieval techniques. The latter remains a challenging task due to the domain-specific vocabulary and semantic ambiguity in user queries. We propose BMQExpander, a novel ontology-aware query expansion pipeline that combines medical knowledge - definitions and relationships - from the UMLS Metathesaurus with the generative capabilities of large language models (LLMs) to enhance retrieval effectiveness. We implemented several state-of-the-art baselines, including sparse and dense retrievers, query expansion methods, and biomedical-specific solutions. We show that BMQExpander has superior retrieval performance on three popular biomedical Information Retrieval (IR) benchmarks: NFCorpus, TREC-COVID, and SciFact - with improvements of up to 22.1% in NDCG@10 over sparse baselines and up to 6.5% over the strongest baseline. Further, BMQExpander generalizes robustly under query perturbation settings, in contrast to supervised baselines, achieving up to 15.7% improvement over the strongest baseline. As a side contribution, we publish our paraphrased benchmarks. Finally, our qualitative analysis shows that BMQExpander has fewer hallucinations compared to other LLM-based query expansion baselines.
- Abstract(参考訳): バイオメディカル文書コレクションに対する効果的な質問回答(QA)には,有効な文書検索技術が必要である。
ドメイン固有の語彙とユーザクエリのセマンティックなあいまいさのため、後者は依然として困難なタスクである。
BMQExpanderは,UMLSメタテーラスから医療知識(定義と関係)と大規模言語モデル(LLM)の生成能力を組み合わせることで,検索効率を向上させる新しいオントロジー対応クエリ拡張パイプラインである。
我々は,スパースとディープレトリバー,クエリ拡張手法,バイオメディカル固有のソリューションなど,最先端のベースラインを実装した。
BMQExpanderは、NFCorpus、TREC-COVID、SciFactの3つの人気のあるバイオメディカル情報検索(IR)ベンチマークにおいて、スパースベースラインよりも22.1%向上し、最強ベースラインよりも6.5%向上した。
さらに、BMQExpanderは、教師付きベースラインとは対照的に、クエリ摂動設定下で堅牢に一般化し、最強ベースラインよりも最大15.7%改善されている。
副次的な貢献として、パラフレーズ付きベンチマークを公開します。
最後に,BMQExpander が他の LLM ベースのクエリ拡張ベースラインに比べて幻覚度が低いことを示す。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - CliniQ: A Multi-faceted Benchmark for Electronic Health Record Retrieval with Semantic Match Assessment [11.815222175336695]
我々は、このギャップに対処するために、新しい公開 EHR 検索ベンチマークである CliniQ を導入する。
我々は、MIMIC-IIIのICDコードと処方薬ラベルとともに、1000の放電サマリーノートに基づくベンチマークを構築した。
我々は,従来の正確なマッチングから一般的な高密度検索まで,さまざまな検索手法を総合的に評価する。
論文 参考訳(メタデータ) (2025-02-10T08:33:47Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。