論文の概要: Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation
- arxiv url: http://arxiv.org/abs/2512.03445v1
- Date: Wed, 03 Dec 2025 04:55:54 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:17:19.254267
- Title: Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation
- Title(参考訳): マルチエージェントデータ生成による多面的知識強化型医用視力訓練
- Authors: Xieji Li, Siyuan Yan, Yingsheng Liu, H. Peter Soyer, Monika Janda, Victoria Mar, Zongyuan Ge,
- Abstract要約: 医用画像分析の強力なパラダイムとして、視覚言語による事前訓練が登場している。
マルチエージェントデータジェネレーション(MAGEN)システムとオントロジーに基づくマルチアスペクト知識強化(O-MAKE)プリトレーニングを統合する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.362188283113788
- License:
- Abstract: Vision-language pretraining (VLP) has emerged as a powerful paradigm in medical image analysis, enabling representation learning from large-scale image-text pairs without relying on expensive manual annotations. However, existing methods often struggle with the noise inherent in web-collected data and the complexity of unstructured long medical texts. To address these challenges, we propose a novel VLP framework integrating a Multi-Agent data GENeration (MAGEN) system and Ontology-based Multi-Aspect Knowledge-Enhanced (O-MAKE) pretraining. First, MAGEN enhances data quality by synthesizing knowledge-enriched descriptions via a foundation model-assisted captioning and retrieval-based verification pipeline. Second, O-MAKE addresses the difficulty of learning from long, unstructured texts by decomposing them into distinct knowledge aspects. This facilitates fine-grained alignment at both global and patch levels, while explicitly modeling medical concept relationships through ontology-guided mechanisms. We validate our framework in the field of dermatology, where comprehensive experiments demonstrate the effectiveness of each component. Our approach achieves state-of-the-art zero-shot performance on disease classification and cross-modal retrieval tasks across eight datasets. Our code and the augmented dataset Derm1M-AgentAug, comprising over 400k skin-image-text pairs, will be released at https://github.com/SiyuanYan1/Derm1M.
- Abstract(参考訳): 医用画像分析の強力なパラダイムとして視覚言語事前学習(VLP)が登場し、高価な手動アノテーションに頼ることなく、大規模な画像テキストペアからの表現学習が可能になった。
しかし、既存の手法は、Webで収集されたデータに固有のノイズや、構造化されていない長い医療用テキストの複雑さに悩まされることが多い。
これらの課題に対処するために,マルチエージェントデータジェネレーション(MAGEN)システムとオントロジーに基づくマルチアスペクト知識強化(O-MAKE)プリトレーニングを統合する新しいVLPフレームワークを提案する。
まず,基礎モデルを用いたキャプションと検索に基づく検証パイプラインを用いて,知識に富んだ記述を合成することにより,データ品質を向上させる。
第二に、O-MAKEは、長い構造化されていないテキストから学習することの難しさに対処し、それらを異なる知識の側面に分解する。
これにより、グローバルレベルとパッチレベルの両方での微粒なアライメントが促進され、オントロジー誘導機構による医療概念の関係が明確にモデル化される。
皮膚科学の分野における我々の枠組みを検証し,各成分の有効性を総合的に検証した。
本手法は,8つのデータセットにまたがる疾患分類および横断モーダル検索タスクにおいて,最先端のゼロショット性能を実現する。
私たちのコードと400万以上のスキンイメージテキストペアからなるデータセットDerm1M-AgentAugはhttps://github.com/SiyuanYan1/Derm1Mでリリースされます。
関連論文リスト
- VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。
本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。
結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-16T17:08:43Z) - GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification [4.922864692096282]
多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。
最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。
本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T09:59:39Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - CLIP-IT: CLIP-based Pairing for Histology Images Classification [14.397842743945155]
マルチモーダル学習は、画像やテキストのような相補的なモダリティを組み合わせた医療画像において有望であることを示している。
CLIP-IT(CLIP-IT)は、リッチな未ペアテキストレポートに依存する新しいフレームワークである。
また,CLIP-ITは,CLIPベースラインの非標準およびマルチモーダルベースラインの分類精度を常に向上することを示した。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。