論文の概要: What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs
- arxiv url: http://arxiv.org/abs/2505.10113v2
- Date: Mon, 26 May 2025 13:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.858868
- Title: What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs
- Title(参考訳): 心臓に対する神経の意味は何か : 臨床専門データの役割を探る
- Authors: Xinlan Yan, Di Wu, Yibin Lei, Christof Monz, Iacer Calixto,
- Abstract要約: 本稿では,S-MedQA(S-MedQA)について紹介する。
専門性からのデータトレーニングが必ずしもその専門性において最高のパフォーマンスをもたらすとは限らないことを示す。
医療領域における微調整データの役割を再考することを提案する。
- 参考スコア(独自算出の注目度): 10.997790637167487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce S-MedQA, an English medical question-answering (QA) dataset for benchmarking large language models in fine-grained clinical specialties. We use S-MedQA to check the applicability of a popular hypothesis related to knowledge injection in the knowledge-intense scenario of medical QA, and show that: 1) training on data from a speciality does not necessarily lead to best performance on that specialty and 2) regardless of the specialty fine-tuned on, token probabilities of clinically relevant terms for all specialties increase consistently. Thus, we believe improvement gains come mostly from domain shifting (e.g., general to medical) rather than knowledge injection and suggest rethinking the role of fine-tuning data in the medical domain. We release S-MedQA and all code needed to reproduce all our experiments to the research community.
- Abstract(参考訳): 本稿では,より詳細な臨床専門分野における大規模言語モデルのベンチマークを行うための,英語のQAデータセットであるS-MedQAを紹介する。
我々は、S-MedQAを用いて、医療用QAの知識センスシナリオにおける知識注入に関連する一般的な仮説の適用性を確認し、そのことを示す。
1)専門性からのデータのトレーニングは、必ずしもその専門性に関する最高のパフォーマンスにつながるとは限らない。
2) 専門用語によらず, 臨床関連用語のトークン確率は, 全専門用語のトークン確率が一貫して増加する。
したがって、知識注入よりもドメインシフト(一般から医療への移行)によって改善がもたらされると考え、医療領域における微調整データの役割を再考することを推奨する。
我々はS-MedQAをリリースし、すべての実験を研究コミュニティに再現するために必要なすべてのコードを公開します。
関連論文リスト
- LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。