論文の概要: Enhancing Representation in Medical Vision-Language Foundation Models
via Multi-Scale Information Extraction Techniques
- arxiv url: http://arxiv.org/abs/2401.01583v2
- Date: Mon, 26 Feb 2024 10:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 00:22:00.260985
- Title: Enhancing Representation in Medical Vision-Language Foundation Models
via Multi-Scale Information Extraction Techniques
- Title(参考訳): マルチスケール情報抽出技術による医用視覚基礎モデルの表現強化
- Authors: Weijian Huang, Cheng Li, Hong-Yu Zhou, Jiarun Liu, Hao Yang, Yong
Liang, Guangming Shi, Hairong Zheng, Shanshan Wang
- Abstract要約: 本稿では,医療基盤モデルの性能向上のために,マルチスケール情報を効果的に活用する手法を提案する。
本研究では,6つのオープンソースデータセットに対する提案手法の有効性について検討した。
- 参考スコア(独自算出の注目度): 41.078761802053535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of medical vision-language foundation models has attracted
significant attention in the field of medicine and healthcare due to their
promising prospect in various clinical applications. While previous studies
have commonly focused on feature learning at a single learning scale,
investigation on integrating multi-scale information is lacking, which may
hinder the potential for mutual reinforcement among these features. This paper
aims to bridge this gap by proposing a method that effectively exploits
multi-scale information to enhance the performance of medical foundation
models. The proposed method simultaneously exploits features at the local,
instance, modality and global aspects, facilitating comprehensive
representation learning within the models. We evaluate the effectiveness of the
proposed method on six open-source datasets across different clinical tasks,
demonstrating its ability to enhance the performance of medical foundation
models.
- Abstract(参考訳): 医療視覚言語基礎モデルの開発は、様々な臨床応用に有望な展望があるため、医療と医療の分野で大きな注目を集めている。
従来の研究では、単一学習規模での機能学習に重点を置いていたが、マルチスケール情報の統合に関する調査は欠如しており、これらの特徴間の相互強化の可能性を妨げている可能性がある。
本稿では,医療基盤モデルの性能向上のために,マルチスケール情報を効果的に活用する手法を提案する。
提案手法は,局所的な特徴,例えばモダリティ,グローバルな側面を同時に利用し,モデル内の包括的表現学習を容易にする。
そこで本研究では,様々な臨床課題にまたがる6つのオープンソースデータセットに対する提案手法の有効性を評価し,医療基礎モデルの性能向上効果を実証する。
関連論文リスト
- FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z) - Exploration of Attention Mechanism-Enhanced Deep Learning Models in the Mining of Medical Textual Data [3.22071437711162]
本研究では,医療用テキストマイニングにおける注意機構を利用した深層学習モデルの利用について検討した。
本研究の目的は、深層学習と注意機構を取り入れることで、本質的な医療情報を特定する能力を高めることである。
論文 参考訳(メタデータ) (2024-05-23T00:20:14Z) - Advancing Multimodal Data Fusion in Pain Recognition: A Strategy Leveraging Statistical Correlation and Human-Centered Perspectives [0.3749861135832073]
本研究では、痛み行動認識のための新しいマルチモーダルデータ融合手法を提案する。
1)データ駆動型統計関連度重みを融合戦略に統合し,2)マルチモーダル表現学習に人間中心の運動特性を取り入れた。
本研究は,患者中心型医療介入を推進し,説明可能な臨床意思決定を支援するために重要な意味を持つ。
論文 参考訳(メタデータ) (2024-03-30T11:13:18Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - Review of multimodal machine learning approaches in healthcare [0.0]
臨床医は、情報的な判断をするために、さまざまなデータソースに依存しています。
機械学習の最近の進歩は、より効率的なマルチモーダルデータの取り込みを促進する。
論文 参考訳(メタデータ) (2024-02-04T12:21:38Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Multimodal Machine Learning in Image-Based and Clinical Biomedicine:
Survey and Prospects [2.1070612998322438]
本稿では,臨床予測のためのマルチモーダルモデルの変換可能性について検討する。
進歩にもかかわらず、多くの生物医学領域におけるデータバイアスや「ビッグデータ」の不足といった課題が続いている。
論文 参考訳(メタデータ) (2023-11-04T05:42:51Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。