論文の概要: What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs
- arxiv url: http://arxiv.org/abs/2505.10113v3
- Date: Wed, 15 Oct 2025 00:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.508318
- Title: What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs
- Title(参考訳): 心臓に対する神経の意味は何か : 臨床専門データの役割を探る
- Authors: Xinlan Yan, Di Wu, Yibin Lei, Christof Monz, Iacer Calixto,
- Abstract要約: 我々は、S-MedQAを用いて、医療QAの知識集約シナリオにおける臨床専門データの役割について検討する。
以上より, 1) 臨床専門職のトレーニングは, 必ずしもその専門職で最高の成績を収めるとは限らないこと, 2) LLMの専門職によらず, 臨床関連用語のトークン確率は, 全専門職で一貫して増加することが示唆された。
- 参考スコア(独自算出の注目度): 19.163574367147543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce S-MedQA, an English medical question-answering (QA) dataset for benchmarking large language models (LLMs) in fine-grained clinical specialties. S-MedQA has over 20k examples, covers 15 medical specialties, and QA pairs can have multiple specialty annotations (e.g., when a question is cross-disciplinary), constructed with both machine and expert verification to maximize data availability. We use S-MedQA to investigate the role of clinical specialty data in the knowledge-intensive scenario of medical QA. Our results show that 1) training on data from a clinical specialty does not necessarily lead to best performance on that specialty, and 2) regardless of the specialty the LLM was fine-tuned on, token probabilities of clinically relevant terms increase consistently across all specialties. Thus, we hypothesize improvement gains are derived mostly from domain shifting (e.g., general to medical) rather than specialty-specific knowledge injection, and suggest rethinking the role of fine-tuning data in the medical domain.
- Abstract(参考訳): 本稿では,大言語モデル(LLM)を詳細な臨床専門用語でベンチマークするための,英語のQAデータセットであるS-MedQAを紹介する。
S-MedQAには20万以上の例があり、15の医療専門用語をカバーしており、QAペアには複数の専門アノテーション(例えば、質問が学際的である場合)があり、データの可用性を最大化するために、マシンと専門家の検証で構築されている。
我々は、S-MedQAを用いて、医療QAの知識集約シナリオにおける臨床専門データの役割について検討する。
私たちの結果は
1)臨床専門職のデータに関するトレーニングは、必ずしもその専門職の最高のパフォーマンスに繋がるとは限らない。
2) LLM の専門性にかかわらず, 臨床関連用語のトークン確率はすべての専門性において一貫して増加する。
そこで本研究では, 専門知識注入ではなく, ドメインシフト(一般から医療への移行)による改善効果の仮説を立て, 医療領域における微調整データの役割を再考することを提案する。
関連論文リスト
- Clinical QA 2.0: Multi-Task Learning for Answer Extraction and Categorization [2.380499804323775]
回答抽出と医療分類の両面でCQAモデルを共同で訓練するマルチタスク学習フレームワークを提案する。
回答の範囲の予測に加えて、我々のモデルは、診断、治療、症状、処置、実験報告の5つの標準化された医療カテゴリに分類する。
その結果、MTLは標準微調整に比べてF1スコアを2.2%改善し、解答分類の精度は90.7%向上した。
論文 参考訳(メタデータ) (2025-02-18T18:20:37Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。