論文の概要: ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training
- arxiv url: http://arxiv.org/abs/2312.13316v3
- Date: Tue, 19 Mar 2024 11:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:51:29.408600
- Title: ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training
- Title(参考訳): ECAMP: エンティティ中心のコンテキスト対応医療ビジョン言語事前トレーニング
- Authors: Rongsheng Wang, Qingsong Yao, Haoran Lai, Zhiyang He, Xiaodong Tao, Zihang Jiang, S. Kevin Zhou,
- Abstract要約: 本稿では,エンティティ中心型医療ビジョン言語事前学習のための新しいフレームワークを提案する。
医療報告からエンティティ中心のコンテキストを抽出し、テキストモダリティをより効果的に管理する。
提案したマルチスケールコンテキスト融合設計は、粗い画像表現と細かな画像表現の両方のセマンティックな統合も改善する。
- 参考スコア(独自算出の注目度): 21.315060059765894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in medical vision-language pre-training, existing methods have largely overlooked the inherent entity-specific context within radiology reports and the complex cross-modality contextual relationships between text and images. To close this gap, we propose a novel Entity-centered Context-aware Medical Vision-language Pre-training (ECAMP) framework, which is designed to enable a more entity-centered and context-sensitive interpretation of medical data. Utilizing the recent powerful large language model, we distill entity-centered context from medical reports, which enables ECAMP to gain more effective supervision from the text modality. By further pre-training our model with carefully designed entity-aware, context-enhanced masked language modeling and context-guided super-resolution tasks, ECAMP significantly refines the interplay between text and image modalities, leading to an enhanced ability to extract entity-centered contextual features. Besides, our proposed multi-scale context fusion design also improves the semantic integration of both coarse and fine-level image representations, prompting better performance for multi-scale downstream applications. Combining these components leads to significant performance leaps over current state-of-the-art methods and establishes a new standard for cross-modality learning in medical imaging, whose effectiveness is demonstrated by our extensive experiments on various tasks including classification, segmentation, and detection across several public datasets. Code and models are available at https://github.com/ToniChopp/ECAMP.
- Abstract(参考訳): 医学的視覚言語による事前訓練の大幅な進歩にもかかわらず、既存の手法は、放射線学レポートにおける固有の実体固有の文脈と、テキストと画像の間の複雑な相互モーダルな文脈関係をほとんど見落としてきた。
このギャップを埋めるために、我々は、よりエンティティ中心でコンテキストに敏感な医療データの解釈を可能にするために設計された、エンティティ中心のコンテキスト対応医療ビジョン言語事前学習(ECAMP)フレームワークを提案する。
近年の強力な大規模言語モデルを用いて,医療報告からエンティティ中心のコンテキストを抽出し,ECAMPがテキストのモダリティからより効果的な監視を行えるようにした。
さらに、慎重に設計されたエンティティ認識、コンテキスト強化されたマスク付き言語モデリング、コンテキスト誘導された超解像タスクでモデルを事前学習することにより、ECAMPはテキストと画像のモダリティ間の相互作用を著しく改善し、エンティティ中心のコンテキスト特徴を抽出する能力が向上する。
さらに、提案するマルチスケールコンテキスト融合設計により、粗い画像表現と細かな画像表現のセマンティック統合が向上し、マルチスケールダウンストリームアプリケーションの性能が向上する。
これらのコンポーネントを組み合わせることで、現在の最先端の手法よりも大幅にパフォーマンスが向上し、医療画像におけるクロスモダリティ学習の新たな標準を確立します。
コードとモデルはhttps://github.com/ToniChopp/ECAMPで入手できる。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Improving Medical Dialogue Generation with Abstract Meaning
Representations [26.97253577302195]
医療対話生成は、患者への医療専門知識の普及を促進することで遠隔医療において重要な役割を担っている。
既存の研究は、テキストのセマンティクスを表現する能力に制限があるテキスト表現を取り入れることに焦点を当てている。
本稿では、抽象的意味表現(AMR)を用いて、言語構成員や医療機関の役割を記述したグラフィカルな表現を構築する。
論文 参考訳(メタデータ) (2023-09-19T13:31:49Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。