論文の概要: Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution
- arxiv url: http://arxiv.org/abs/2603.05308v1
- Date: Thu, 05 Mar 2026 15:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.306245
- Title: Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution
- Title(参考訳): Med-V1: ゼロショットとスケーラブルなバイオメディカルエビデンス属性のための小さな言語モデル
- Authors: Qiao Jin, Yin Fang, Lauren He, Yifan Yang, Guangzhi Xiong, Zhizheng Wang, Nicholas Wan, Joey Chan, Donald C. Comeau, Robert Leaman, Charalampos S. Floudas, Aidong Zhang, Michael F. Chiang, Yifan Peng, Zhiyong Lu,
- Abstract要約: 我々は、30億のパラメータしか持たない小さな言語モデルのファミリーであるMed-V1を紹介する。
本研究で新たに開発された高品質な合成データを用いてMed-V1を訓練する。
- 参考スコア(独自算出の注目度): 41.35122660643713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing whether an article supports an assertion is essential for hallucination detection and claim verification. While large language models (LLMs) have the potential to automate this task, achieving strong performance requires frontier models such as GPT-5 that are prohibitively expensive to deploy at scale. To efficiently perform biomedical evidence attribution, we present Med-V1, a family of small language models with only three billion parameters. Trained on high-quality synthetic data newly developed in this study, Med-V1 substantially outperforms (+27.0% to +71.3%) its base models on five biomedical benchmarks unified into a verification format. Despite its smaller size, Med-V1 performs comparably to frontier LLMs such as GPT-5, along with high-quality explanations for its predictions. We use Med-V1 to conduct a first-of-its-kind use case study that quantifies hallucinations in LLM-generated answers under different citation instructions. Results show that the format instruction strongly affects citation validity and hallucination, with GPT-5 generating more claims but exhibiting hallucination rates similar to GPT-4o. Additionally, we present a second use case showing that Med-V1 can automatically identify high-stakes evidence misattributions in clinical practice guidelines, revealing potentially negative public health impacts that are otherwise challenging to identify at scale. Overall, Med-V1 provides an efficient and accurate lightweight alternative to frontier LLMs for practical and real-world applications in biomedical evidence attribution and verification tasks. Med-V1 is available at https://github.com/ncbi-nlp/Med-V1.
- Abstract(参考訳): 記事が主張を支持するかどうかを評価することは、幻覚の検出とクレームの検証に不可欠である。
大きな言語モデル(LLM)は、このタスクを自動化する可能性があるが、強力なパフォーマンスを達成するには、大規模にデプロイするのに非常に高価であるGPT-5のようなフロンティアモデルが必要である。
バイオメディカルなエビデンスを効果的に実現するために,30億のパラメータしか持たない小言語モデルであるMed-V1を提案する。
この研究で新たに開発された高品質な合成データに基づいて訓練され、Med-V1は5つのバイオメディカルベンチマークのベースモデルを検証形式に統一した上で大幅に性能が向上した(+27.0%から+71.3%)。
サイズが小さいにもかかわらず、Med-V1 は GPT-5 などのフロンティア LLM と互換性があり、予測の質も高い。
我々は、Med-V1を用いて、異なる引用指示の下でLLM生成された回答の幻覚を定量化する第一種ユースケース研究を行う。
その結果, GPT-5 は GPT-4o と類似の幻覚率を示すが, GPT-5 はより多くのクレームを発生させるが, GPT-4o と類似の幻覚率を示す。
さらに,Med-V1は,臨床実践ガイドラインにおける有害な証拠を自動的に同定し,大規模に特定することが困難である公衆衛生への影響を潜在的に否定的に示す第2のユースケースを提示する。
全体として、Med-V1はバイオメディカルエビデンスへの貢献と検証タスクの実践的および現実的な応用のために、フロンティア LLM に代わる効率的で正確な軽量な代替手段を提供する。
Med-V1はhttps://github.com/ncbi-nlp/Med-V1で入手できる。
関連論文リスト
- Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy [0.0]
糖尿病網膜症(DR)は、世界中の視覚障害の主要な原因であり、AIシステムは、基礎的な写真スクリーニングへのアクセスを拡大することができる。
我々は、DRのための大規模言語モデル(MLLM)と、異なる出力タイプで臨床AI支援をシミュレートする能力を評価した。
これらの結果から、MLLMはDRスクリーニングパイプラインを改善し、様々な出力構成で臨床AIアシストを研究するためのスケーラブルなシミュレータとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-16T16:42:19Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content [0.10241134756773229]
2段階のアノテーションプロセスを通じてPubMedから構築されたバイオメディカルテキストデータセットであるBiomed-Enrichedを紹介する。
第一段階では、大きな言語モデルがPubMedの科学論文から400K節を注釈付けし、それらのタイプ(レビュー、研究、臨床ケースなど)、ドメイン(クリニカル、バイオメディカルなど)、教育的品質にスコアを割り当てている。
得られたメタデータは, 市販ライセンスのある記事から, 450万以上の高品質なものを含む200万件の症例を含む, 精巧なサブセットを抽出することができる。
論文 参考訳(メタデータ) (2025-06-25T11:30:25Z) - MedHal: An Evaluation Dataset for Medical Hallucination Detection [4.98142540436183]
MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。
MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含むギャップに対処する。
論文 参考訳(メタデータ) (2025-04-11T14:55:15Z) - MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models [81.64135119165277]
幻覚は臨床的意思決定を阻害し、診断や治療を害する可能性がある。
本稿では,医療用VLMにおける幻覚の評価と緩和を目的とした大規模ベンチマークであるMedHallTuneを提案する。
我々は、MedHallTuneを用いて、現在の医用および一般のVLMの総合的な評価を行い、臨床精度、関連性、ディテールレベル、リスクレベルなど、主要な指標でそれらの性能を評価する。
論文 参考訳(メタデータ) (2025-02-28T06:59:49Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。