論文の概要: MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training
with Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2403.04626v1
- Date: Thu, 7 Mar 2024 16:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:37:51.274959
- Title: MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training
with Masked Autoencoder
- Title(参考訳): MedFLIP:マスクオートエンコーダを用いた医用ビジョン・ランゲージ型高速事前訓練
- Authors: Lei Li, Tianfang Zhang, Xinglin Zhang, Jiaqi Liu, Bingqi Ma, Yan Luo,
Tao Chen
- Abstract要約: 本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデル能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
- 参考スコア(独自算出の注目度): 28.17601348122799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Within the domain of medical analysis, extensive research has explored the
potential of mutual learning between Masked Autoencoders(MAEs) and multimodal
data. However, the impact of MAEs on intermodality remains a key challenge. We
introduce MedFLIP, a Fast Language-Image Pre-training method for Medical
analysis. We explore MAEs for zero-shot learning with crossed domains, which
enhances the model ability to learn from limited data, a common scenario in
medical diagnostics. We verify that masking an image does not affect intermodal
learning. Furthermore, we propose the SVD loss to enhance the representation
learning for characteristics of medical images, aiming to improve
classification accuracy by leveraging the structural intricacies of such data.
Lastly, we validate using language will improve the zero-shot performance for
the medical image analysis. MedFLIP scaling of the masking process marks an
advancement in the field, offering a pathway to rapid and precise medical image
analysis without the traditional computational bottlenecks. Through experiments
and validation, MedFLIP demonstrates efficient performance improvements,
setting an explored standard for future research and application in medical
diagnostics.
- Abstract(参考訳): 医学分析の領域内では、マスケッドオートエンコーダ(MAE)とマルチモーダルデータ間の相互学習の可能性について広範な研究が行われている。
しかし、モーダリティに対するMAEsの影響は依然として重要な課題である。
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
クロスドメインによるゼロショット学習のためのmaesについて検討し,医療診断における一般的なシナリオである限定データから学習するモデルの能力を高める。
画像のマスキングがモーダル学習に影響を与えないことを検証する。
さらに,医用画像の特徴の表現学習を強化するためのSVD損失を提案し,そのようなデータの構造的複雑さを活用して分類精度を向上させることを目的とした。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
マスクプロセスのMedFLIPスケーリングは、従来の計算ボトルネックを伴わずに、迅速かつ正確な医療画像解析のための経路を提供する、この分野の進歩を示す。
実験と検証を通じて、MedFLIPは効率的なパフォーマンス向上を実証し、将来の研究の標準と医療診断への応用を定めている。
関連論文リスト
- MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - FeaInfNet: Diagnosis in Medical Image with Feature-Driven Inference and
Visual Explanations [4.022446255159328]
解釈可能なディープラーニングモデルは、画像認識の分野で広く注目を集めている。
提案されている多くの解釈可能性モデルは、医用画像診断の精度と解釈性に問題がある。
これらの問題を解決するために,機能駆動型推論ネットワーク(FeaInfNet)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:09:00Z) - Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - UnICLAM:Contrastive Representation Learning with Adversarial Masking for
Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。
本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。
VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-12-21T02:48:15Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。