論文の概要: CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA
- arxiv url: http://arxiv.org/abs/2509.00806v1
- Date: Sun, 31 Aug 2025 11:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.40562
- Title: CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA
- Title(参考訳): CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA
- Authors: Reem Abdel-Salam, Mary Adewunmi, Modinat A. Abayomi,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる正確な質問応答において、ますます明白になっている。
本稿では,BioCreative IX共有タスクのMedHopQAトラックへのアプローチについて述べる。
短い解答と長い解答を組み合わせた微調整、短い解答のみ、長い解答のみの3つの実験的な設定が検討されている。
- 参考スコア(独自算出の注目度): 3.222047196930981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly evident for accurate question answering across various domains. However, rigorous evaluation of their performance on complex question-answering (QA) capabilities is essential before deployment in real-world biomedical and healthcare applications. This paper presents our approach to the MedHopQA track of the BioCreative IX shared task, which focuses on multi-hop biomedical question answering involving diseases, genes, and chemicals. We adopt a supervised fine-tuning strategy leveraging LLaMA 3 8B, enhanced with a curated biomedical question-answer dataset compiled from external sources including BioASQ, MedQuAD, and TREC. Three experimental setups are explored: fine-tuning on combined short and long answers, short answers only, and long answers only. While our models demonstrate strong domain understanding, achieving concept-level accuracy scores of up to 0.8, their Exact Match (EM) scores remain significantly lower, particularly in the test phase. We introduce a two-stage inference pipeline for precise short-answer extraction to mitigate verbosity and improve alignment with evaluation metrics. Despite partial improvements, challenges persist in generating strictly formatted outputs. Our findings highlight the gap between semantic understanding and exact answer evaluation in biomedical LLM applications, motivating further research in output control and post-processing strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にわたる正確な質問応答において、ますます明白になっている。
しかし、実世界のバイオメディカルおよび医療アプリケーションに展開する前には、複雑な質問応答(QA)能力に関する厳密な評価が不可欠である。
本稿では,BioCreative IX共有タスクのMedHopQAトラックへのアプローチについて述べる。
我々は、LLaMA 3 8Bを活用した教師付き微調整戦略を採用し、BioASQ, MedQuAD, TRECなどの外部ソースから収集した生体医学的質問応答データセットを改良した。
短い解答と長い解答を組み合わせた微調整、短い解答のみ、長い解答のみの3つの実験的な設定が検討されている。
我々のモデルは強いドメイン理解を示し、概念レベルの精度スコアは0.8まで達成するが、そのエクササイズマッチ(EM)スコアは特にテスト段階では著しく低いままである。
本稿では2段階の推論パイプラインを導入し,冗長性を軽減し,評価指標との整合性を改善する。
部分的な改善にもかかわらず、厳密なフォーマットの出力を生成する際の課題は続いている。
本研究は, バイオメディカルLLMアプリケーションにおける意味理解と正確な回答評価のギャップを浮き彫りにし, 出力制御と後処理戦略のさらなる研究を動機付けている。
関連論文リスト
- MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation [0.0]
本稿では,ドメイン適応型バイオメディカル質問応答モデルであるMedBioLMを紹介する。
MedBioLMは、微調整および検索拡張生成(RAG)を統合することで、ドメイン固有の知識を動的に組み込む。
微調整はベンチマークデータセットの精度を大幅に向上する一方、RAGは事実整合性を高める。
論文 参考訳(メタデータ) (2025-02-05T08:58:35Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering [0.14999444543328289]
本稿では,最適化されたトピックモデリングフレームワークであるOVB-LDAとBI-POP CMA-ES最適化技術を統合し,学術文書の抽象分類を強化した新しい手法を提案する。
我々は、ドメイン固有データに基づいて微調整された蒸留MiniLMモデルを用いて、高精度な回答抽出を行う。
論文 参考訳(メタデータ) (2024-10-29T14:45:12Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Rewire-then-Probe: A Contrastive Recipe for Probing Biomedical Knowledge
of Pre-trained Language Models [16.535312449449165]
我々は,Unified Medical Language System (UMLS) Metathesaurus に基づくバイオメディカル知識探索ベンチマーク MedLAMA をリリースする。
我々は、最先端のPLMの幅広いスペクトルをテストし、ベンチマークのアプローチを検証し、acc@10の3%に到達した。
提案するContrastive-Probeは,新しい自己監督型コントラスト型探索手法で,探索データを用いずに基礎となるPLMを調整する。
論文 参考訳(メタデータ) (2021-10-15T16:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。