論文の概要: MedQ-Engine: A Closed-Loop Data Engine for Evolving MLLMs in Medical Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2603.19863v1
- Date: Fri, 20 Mar 2026 11:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.117669
- Title: MedQ-Engine: A Closed-Loop Data Engine for Evolving MLLMs in Medical Image Quality Assessment
- Title(参考訳): MedQ-Engine:医療画像品質評価におけるMLLMの進化のためのクローズドループデータエンジン
- Authors: Jiyao Liu, Junzhi Ning, Wanying Qu, Lihao Liu, Chenglong Ma, Junjun He, Ningsheng Xu,
- Abstract要約: MedQ-Engineはクローズドループデータエンジンであり,本モデルを用いてフェールプロトタイプの探索を反復的に評価する。
MedQ-Engineは、GPT-4oを13%以上越える8B-パラメータモデルを高め、人間専門家とのギャップを4.34%に縮めることを示した。
- 参考スコア(独自算出の注目度): 13.15979289867313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image quality assessment (Med-IQA) is a prerequisite for clinical AI deployment, yet multimodal large language models (MLLMs) still fall substantially short of human experts, particularly when required to provide descriptive assessments with clinical reasoning beyond simple quality scores. However, improving them is hindered by the high cost of acquiring descriptive annotations and by the inability of one-time data collection to adapt to the model's evolving weaknesses. To address these challenges, we propose MedQ-Engine, a closed-loop data engine that iteratively evaluates the model to discover failure prototypes via data-driven clustering, explores a million-scale image pool using these prototypes as retrieval anchors with progressive human-in-the-loop annotation, and evolves through quality-assured fine-tuning, forming a self-improving cycle. Models are evaluated on complementary perception and description tasks. An entropy-guided routing mechanism triages annotations to minimize labeling cost. Experiments across five medical imaging modalities show that MedQ-Engine elevates an 8B-parameter model to surpass GPT-4o by over 13% and narrow the gap with human experts to only 4.34%, using only 10K annotations with more than 4x sample efficiency over random sampling.
- Abstract(参考訳): 医療画像品質評価(Med-IQA)は、臨床AIデプロイメントの前提条件であるが、多モーダルな大言語モデル(MLLM)は、人間の専門家には依然としてかなり不足している。
しかし、それらを改善するには、記述的なアノテーションを取得するのに高いコストと、モデルの進化する弱点に適応する1回のデータ収集ができないことが妨げられます。
これらの課題に対処するため,データ駆動クラスタリングによるフェールプロトタイプの探索モデルを反復的に評価するクローズドループデータエンジンであるMedQ-Engineを提案し,プログレッシブなヒューマン・イン・ザ・ループアノテーションを用いた検索アンカーとして,100万規模のイメージプールを探索し,品質保証された微調整を経て自己改善サイクルを形成する。
モデルは相補的な知覚と記述タスクに基づいて評価される。
エントロピー誘導ルーティング機構は、アノテーションをトリアージしてラベリングコストを最小限にする。
5つの医用画像モダリティでの実験では、MedQ-Engineは8BパラメータモデルでGPT-4oを13%以上上回り、人間の専門家とのギャップを4.34%に狭め、ランダムサンプリングよりも4倍のサンプル効率を持つ10Kアノテーションしか使用していない。
関連論文リスト
- When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。
LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。
本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文 参考訳(メタデータ) (2026-02-27T21:09:43Z) - Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification [5.59515535487396]
深層学習モデルは、医用画像解析において顕著な成功を収めてきたが、大規模かつ精巧に注釈付けされたデータセットの要求に制約されている。
ゼロトレーニングタスク特化モデル合成(ZS-TMS)という新しいパラダイムを提案する。
既存のモデルに適応したり、新しいモデルをトレーニングする代わりに、大規模で事前訓練された生成エンジンを活用して、タスク固有の分類器のパラメータ集合全体を直接的に合成する。
論文 参考訳(メタデータ) (2025-11-18T03:12:01Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - MedS$^3$: Towards Medical Slow Thinking with Self-Evolved Soft Dual-sided Process Supervision [42.03114317779815]
Moneは、小規模でデプロイ可能なモデルに堅牢な推論機能を提供する、自己進化型のフレームワークである。
moneは過去の最先端の医療モデルを+6.45の精度で上回り、32Bスケールの汎用推論モデルを+8.57の精度で上回っている。
論文 参考訳(メタデータ) (2025-01-21T11:24:55Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries [0.024105148723769353]
我々は、精神状態検査から簡潔な要約を生成するために、いくつかの最先端の大規模言語モデル(LLM)を評価した。
確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。
我々の最高性能の微調整モデルは既存のモデルより優れており、ROUGE-1とROUGE-Lはそれぞれ0.810と0.764である。
論文 参考訳(メタデータ) (2024-03-29T12:25:37Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。