Fugu-MT 論文翻訳(概要): MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning

論文の概要: MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning

arxiv url: http://arxiv.org/abs/2404.15127v1
Date: Tue, 23 Apr 2024 15:27:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 13:32:19.096051
Title: MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning
Title（参考訳）: MedDr:大規模医用ビジョンランゲージ学習のための診断ガイド付きブートストラップ
Authors: Sunan He, Yuxiang Nie, Zhixuan Chen, Zhiyuan Cai, Hongmei Wang, Shu Yang, Hao Chen,
Abstract要約: 医学における広範かつ高品質の画像テキストデータの欠如は、大規模医療ビジョン言語モデルの開発を著しく妨げている。本稿では、画像情報とラベル情報を利用して視覚言語データセットを構築する、診断誘導型ブートストラッピング戦略を提案する。
参考スコア（独自算出の注目度）: 9.913879680322042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of large-scale vision-language models has showcased remarkable capabilities across various tasks. However, the lack of extensive and high-quality image-text data in medicine has greatly hindered the development of large-scale medical vision-language models. In this work, we present a diagnosis-guided bootstrapping strategy that exploits both image and label information to construct vision-language datasets. Based on the constructed dataset, we developed MedDr, a generalist foundation model for healthcare capable of handling diverse medical data modalities, including radiology, pathology, dermatology, retinography, and endoscopy. Moreover, during inference, we propose a simple but effective retrieval-augmented medical diagnosis strategy, which enhances the model's generalization ability. Extensive experiments on visual question answering, medical report generation, and medical image diagnosis demonstrate the superiority of our method.
Abstract（参考訳）: 大規模視覚言語モデルの急速な進歩は、様々なタスクにおいて顕著な能力を示した。しかし、医学における画像テキストデータの広範かつ高品質の欠如は、大規模医療ビジョン言語モデルの開発を著しく妨げている。本研究では,画像情報とラベル情報を利用して視覚言語データセットを構築する,診断誘導型ブートストラッピング戦略を提案する。構築したデータセットに基づいて,放射線学,病理学,皮膚科,網膜撮影,内視鏡などの多様な医療データモダリティを扱える医療の一般基盤モデルであるMedDrを開発した。さらに,推測において,モデルの一般化能力を高める,単純かつ効果的な検索強化型医療診断戦略を提案する。視覚的質問応答, 医療報告生成, 医用画像診断に関する広範囲な実験は, 本手法の優位性を示している。

関連論文リスト

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。 5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文参考訳（メタデータ） (2025-05-31T13:22:55Z)
DoctorRAG: Medical RAG Fusing Knowledge with Patient Analogy through Textual Gradients [4.062920795080979]
既存の医療RAGシステムは、主に医療知識ベースからの知識を活用している。本稿では,明示的な臨床知識と暗黙的な症例ベース体験を統合し,医師ライクな推論をエミュレートするRAGフレームワークであるDoctorRAGを提案する。我々のアプローチは、より正確で、関連性があり、包括的な反応を生成し、医師のような医療推論システムに向けて一歩前進する。
論文参考訳（メタデータ） (2025-05-26T05:56:23Z)
AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation [25.070570876478417]
胸部X線検査 (CXRs) は, 臨床現場で最も頻度の高い画像検査である。大規模マルチモーダルモデル(LMM)の最近の進歩により、自動CXR解釈が可能となり、診断精度と効率が向上した。現在の医療用LMM(MLMM)は,(1)地域レベルでの理解と相互作用が不十分なこと,(2)単一段階の推論による限定的な解釈可能性の2つの課題に直面している。
論文参考訳（メタデータ） (2025-05-05T17:57:07Z)
Zero-shot Domain Generalization of Foundational Models for 3D Medical Image Segmentation: An Experimental Study [15.3909625201792]
様々な大規模データに基づいて訓練されたファンデーションモデル(FM)はゼロショットの一般化を約束する。本研究では,ドメイン・ジェネリゼーション(DG)に対するその能力について,包括的実験により検討する。本研究は, スマートプロンプト技術により, 領域ギャップを埋める際に, 即効性FMの可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-03-28T20:33:41Z)
MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot [47.77948063906033]
Retrieval-augmented Generation (RAG)は、プライバシーに敏感な電子健康記録を検索するのに適した手法である。本稿では,医療領域に対する知識グラフ(KG)により強化されたRAGモデルであるMedRAGを提案する。 MedRAGはより具体的な診断の洞察を提供し、誤診率の低減に最先端のモデルを上回っている。
論文参考訳（メタデータ） (2025-02-06T12:27:35Z)
Glioma Multimodal MRI Analysis System for Tumor Layered Diagnosis via Multi-task Semi-supervised Learning [9.665261760136032]
グリオーマは中枢神経系の最も一般的な原発性腫瘍である。本研究では,複数のイベントを同時に処理する深層学習ネットワークを用いたGlioma Multimodal MRI Analysis System (GMMAS)を提案する。
論文参考訳（メタデータ） (2025-01-29T16:50:04Z)
KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis [6.001401133840334]
KG4Diagnosisは、大規模言語モデルと知識グラフの自動構築を組み合わせた、新しい階層型マルチエージェントフレームワークである。本フレームワークは,2層構造を用いて実世界の医療システムをミラーリングする。初期評価とトリアージのためのGPエージェントであり,特定のドメインにおける深度診断のための特殊なエージェントと協調する。
論文参考訳（メタデータ） (2024-12-22T02:40:59Z)
KA$^2$ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation [5.807887214293438]
本稿では,多元的基礎モデルを学習し,複数のエキスパートモデルの協調的な目標に対処することを目的としたアダプティブ・アマルガメーション・ナレッジ・フレームワークを提案する。特に、まず、各タスクに対してnnUNetベースのエキスパートモデルをトレーニングし、トレーニング済みのSwinUNTERをターゲット基盤モデルとして再利用する。隠蔽層内の階層的アテンション機構は、すべての専門家の隠蔽層の特徴知識にターゲットモデルの適応的なマージを実現するように設計されている。
論文参考訳（メタデータ） (2024-10-28T14:49:17Z)
LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。 LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文参考訳（メタデータ） (2024-09-29T03:56:21Z)
Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation? [10.20366295974822]
本稿では,2つの最先端デコーダヘッドであるHSAMとHQSAMの要素を統合し,セグメンテーション性能を向上させる新しいデコーダヘッドアーキテクチャであるHQHSAMを紹介する。種々の解剖学やモダリティを含む複数のデータセットに対する実験により,FM,特にHQHSAMデコードヘッドを用いて,医用画像分割のための領域一般化が向上したことが明らかとなった。
論文参考訳（メタデータ） (2024-09-12T11:41:35Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert knowledge in text supervision [17.583536041845402]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。各種ソースから37個のオープンアクセスデータセットを収集した。我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文参考訳（メタデータ） (2023-08-15T17:39:52Z)
Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文参考訳（メタデータ） (2023-06-04T17:39:08Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
Factored Attention and Embedding for Unstructured-view Topic-related Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文参考訳（メタデータ） (2022-03-12T15:24:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。