論文の概要: BioMedSearch: A Multi-Source Biomedical Retrieval Framework Based on LLMs
- arxiv url: http://arxiv.org/abs/2510.13926v1
- Date: Wed, 15 Oct 2025 13:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.547613
- Title: BioMedSearch: A Multi-Source Biomedical Retrieval Framework Based on LLMs
- Title(参考訳): BioMedSearch: LLMに基づいたマルチソースバイオメディカル検索フレームワーク
- Authors: Congying Liu, Xingyuan Wei, Peipei Liu, Yiqing Shen, Yanxu Mao, Tiehan Cui,
- Abstract要約: 大規模言語モデル(LLM)に基づくバイオメディカル情報検索フレームワークであるBioMedSearchについて述べる。
本手法は,文献検索,タンパク質データベース,Web検索アクセスを統合し,複雑なバイオメディカルクエリの正確かつ効率的な処理を支援する。
質問応答の精度を評価するために,3,000の質問からなる多レベルデータセットBioMedMCQを構築した。
- 参考スコア(独自算出の注目度): 8.505934574757587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Biomedical queries often rely on a deep understanding of specialized knowledge such as gene regulatory mechanisms and pathological processes of diseases. They require detailed analysis of complex physiological processes and effective integration of information from multiple data sources to support accurate retrieval and reasoning. Although large language models (LLMs) perform well in general reasoning tasks, their generated biomedical content often lacks scientific rigor due to the inability to access authoritative biomedical databases and frequently fabricates protein functions, interactions, and structural details that deviate from authentic information. Therefore, we present BioMedSearch, a multi-source biomedical information retrieval framework based on LLMs. The method integrates literature retrieval, protein database and web search access to support accurate and efficient handling of complex biomedical queries. Through sub-queries decomposition, keywords extraction, task graph construction, and multi-source information filtering, BioMedSearch generates high-quality question-answering results. To evaluate the accuracy of question answering, we constructed a multi-level dataset, BioMedMCQs, consisting of 3,000 questions. The dataset covers three levels of reasoning: mechanistic identification, non-adjacent semantic integration, and temporal causal reasoning, and is used to assess the performance of BioMedSearch and other methods on complex QA tasks. Experimental results demonstrate that BioMedSearch consistently improves accuracy over all baseline models across all levels. Specifically, at Level 1, the average accuracy increases from 59.1% to 91.9%; at Level 2, it rises from 47.0% to 81.0%; and at the most challenging Level 3, the average accuracy improves from 36.3% to 73.4%. The code and BioMedMCQs are available at: https://github.com/CyL-ucas/BioMed_Search
- Abstract(参考訳): バイオメディカルクエリは、しばしば遺伝子制御機構や疾患の病理過程などの専門知識の深い理解に依存している。
複雑な生理的プロセスの詳細な分析と、正確な検索と推論を支援するために複数のデータソースからの情報の効果的な統合が必要である。
大規模言語モデル(LLM)は、一般的な推論タスクにおいてよく機能するが、その生成したバイオメディカルコンテンツは、権威的なバイオメディカルデータベースにアクセスできず、しばしばタンパク質の機能、相互作用、真正情報から逸脱する構造的詳細を作成できないため、科学的な厳密さを欠くことが多い。
そこで本研究では,LLMをベースとしたマルチソースバイオメディカル情報検索フレームワークであるBioMedSearchを提案する。
本手法は,文献検索,タンパク質データベース,Web検索アクセスを統合し,複雑なバイオメディカルクエリの正確かつ効率的な処理を支援する。
サブクエリ分解、キーワード抽出、タスクグラフ構築、マルチソース情報フィルタリングを通じて、BioMedSearchは高品質な質問回答結果を生成する。
質問応答の精度を評価するために,3,000の質問からなる多レベルデータセットBioMedMCQを構築した。
このデータセットは、機械的識別、非隣接セマンティック統合、時間的因果推論という3つの推論レベルを含み、複雑なQAタスクにおけるBioMedSearchや他のメソッドのパフォーマンスを評価するために使用される。
実験結果から,BioMedSearchはすべてのレベルのベースラインモデルに対して一貫して精度を向上することが示された。
具体的には、レベル1では平均精度が59.1%から91.9%に上昇し、レベル2では47.0%から81.0%に上昇し、最も難しいレベル3では平均精度が36.3%から73.4%に向上する。
コードとBioMedMCQは、https://github.com/CyL-ucas/BioMed_Searchで入手できる。
関連論文リスト
- CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA [3.222047196930981]
大規模言語モデル(LLM)は、様々な領域にわたる正確な質問応答において、ますます明白になっている。
本稿では,BioCreative IX共有タスクのMedHopQAトラックへのアプローチについて述べる。
短い解答と長い解答を組み合わせた微調整、短い解答のみ、長い解答のみの3つの実験的な設定が検討されている。
論文 参考訳(メタデータ) (2025-08-31T11:40:02Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [22.996230737442254]
バイオメディカルな大規模言語モデル(LLM)のためのコーパスヘッダーは、オープンソースの科学コーパスにおいて、不十分な量と品質のプレス課題に対処しようとしている。
本稿では, バイオメディカル領域におけるLLMトレーニングに適した, 科学的コーパス蒸留のための知識駆動型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T08:18:24Z) - MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation [0.0]
本稿では,ドメイン適応型バイオメディカル質問応答モデルであるMedBioLMを紹介する。
MedBioLMは、微調整および検索拡張生成(RAG)を統合することで、ドメイン固有の知識を動的に組み込む。
微調整はベンチマークデータセットの精度を大幅に向上する一方、RAGは事実整合性を高める。
論文 参考訳(メタデータ) (2025-02-05T08:58:35Z) - Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。