論文の概要: ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training
- arxiv url: http://arxiv.org/abs/2312.13316v4
- Date: Sat, 07 Jun 2025 09:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.734755
- Title: ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training
- Title(参考訳): ECAMP: エンティティ中心のコンテキスト対応医療ビジョン言語事前トレーニング
- Authors: Rongsheng Wang, Qingsong Yao, Zihang Jiang, Haoran Lai, Zhiyang He, Xiaodong Tao, S. Kevin Zhou,
- Abstract要約: 本稿では,新しいEntity-centered Context-aware Medical Vision-Language Pre-trainingフレームワークを提案する。
まず,大規模言語モデルを用いた医療報告からエンティティ中心のコンテキストを抽出する。
次に、エンティティ・アウェア・リバランス係数と記述子マスキング戦略をマスキング言語モデルに組み込む。
粗い画像表現と細かな画像表現の両方のセマンティック統合を改善するため、コンテキスト誘導型超解像タスクをマルチスケールのコンテキスト融合設計と共に提案する。
- 参考スコア(独自算出の注目度): 21.315060059765894
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant advancements in medical vision-language pre-training, existing methods have largely overlooked the inherent linguistic complexity and imbalanced isssue within medical reports, as well as the complex cross-modality contextual relationships between texts and images. To close this gap, we propose a novel Entity-centered Context-aware Medical Vision-language Pre-training (ECAMP) framework, which establishes a more entity-centered, context-sensitive, and balanced understanding of medical reports to effectively pre-train the vision encoder. We first distill entity-centered context from medical reports utilizing large language models, enabling ECAMP to draw more precise supervision from the text modality. By further incorporating entity-aware re-balanced factor and descriptor masking strategies into masked languange modeling, ECAMP significantly enhances the knowledge of entities within the reports. A context-guided super-resolution task is proposed alongside a multi-scale context fusion design to improve the semantic integration of both coarse and fine-level image representations, which prompts better performance for multi-scale downstream applications. ECAMP integrates these innovations together, leading to significant performance leaps over current state-of-the-art methods and establish a new standard for cross-modality pre-training in medical imaging. The effectiveness of ECAMP is demonstrated by extensive experiments on various domains and organs, which achieves cutting-edge results on multiple tasks including classification, segmentation, and detection across 5 public chest X-ray and 4 fundoscopy datasets respectively.
- Abstract(参考訳): 医学的視覚言語による事前訓練の大幅な進歩にもかかわらず、既存の手法は、医学的報告における固有の言語的複雑さと不均衡なイシュー、およびテキストと画像の間の複雑な相互モーダルな文脈関係をほとんど見落としてきた。
このギャップを埋めるために、我々は、よりエンティティ中心で文脈に敏感でバランスの取れた医療報告の理解を確立し、視覚エンコーダを効果的に事前訓練する、エンティティ中心のコンテキスト対応医療ビジョン言語事前学習(ECAMP)フレームワークを提案する。
我々はまず,大規模言語モデルを用いた医療報告からエンティティ中心のコンテキストを抽出し,ECAMPがテキストモダリティからより正確な監視を行えるようにした。
さらに、エンティティ・アウェア・リバランス係数と記述子マスキング戦略をマスク付き言語モデルに組み込むことで、ECAMPはレポート内のエンティティの知識を大幅に強化する。
コンテキスト誘導型超解像タスクは、粗い画像表現と細かな画像表現の両方のセマンティックな統合を改善するために、マルチスケールのコンテキスト融合設計と共に提案され、マルチスケールのダウンストリームアプリケーションの性能が向上する。
ECAMPはこれらのイノベーションを統合し、現在の最先端の手法よりも大きなパフォーマンス向上をもたらし、医療画像のクロスモダリティ事前訓練のための新しい標準を確立する。
ECAMPの有効性は, 5つの胸部X線および4つの眼底鏡データセットの分類, セグメンテーション, 検出を含む複数のタスクにおいて, 最先端の結果が得られる, 様々な領域および臓器に対する広範な実験によって実証されている。
関連論文リスト
- Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T21:09:32Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Improving Medical Dialogue Generation with Abstract Meaning
Representations [26.97253577302195]
医療対話生成は、患者への医療専門知識の普及を促進することで遠隔医療において重要な役割を担っている。
既存の研究は、テキストのセマンティクスを表現する能力に制限があるテキスト表現を取り入れることに焦点を当てている。
本稿では、抽象的意味表現(AMR)を用いて、言語構成員や医療機関の役割を記述したグラフィカルな表現を構築する。
論文 参考訳(メタデータ) (2023-09-19T13:31:49Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。