Fugu-MT 論文翻訳(概要): MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder

論文の概要: MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder

arxiv url: http://arxiv.org/abs/2403.04626v1
Date: Thu, 7 Mar 2024 16:11:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:37:51.274959
Title: MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder
Title（参考訳）: MedFLIP:マスクオートエンコーダを用いた医用ビジョン・ランゲージ型高速事前訓練
Authors: Lei Li, Tianfang Zhang, Xinglin Zhang, Jiaqi Liu, Bingqi Ma, Yan Luo, Tao Chen
Abstract要約: 本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデル能力を向上する。最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
参考スコア（独自算出の注目度）: 28.17601348122799
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Within the domain of medical analysis, extensive research has explored the potential of mutual learning between Masked Autoencoders(MAEs) and multimodal data. However, the impact of MAEs on intermodality remains a key challenge. We introduce MedFLIP, a Fast Language-Image Pre-training method for Medical analysis. We explore MAEs for zero-shot learning with crossed domains, which enhances the model ability to learn from limited data, a common scenario in medical diagnostics. We verify that masking an image does not affect intermodal learning. Furthermore, we propose the SVD loss to enhance the representation learning for characteristics of medical images, aiming to improve classification accuracy by leveraging the structural intricacies of such data. Lastly, we validate using language will improve the zero-shot performance for the medical image analysis. MedFLIP scaling of the masking process marks an advancement in the field, offering a pathway to rapid and precise medical image analysis without the traditional computational bottlenecks. Through experiments and validation, MedFLIP demonstrates efficient performance improvements, setting an explored standard for future research and application in medical diagnostics.
Abstract（参考訳）: 医学分析の領域内では、マスケッドオートエンコーダ(MAE)とマルチモーダルデータ間の相互学習の可能性について広範な研究が行われている。しかし、モーダリティに対するMAEsの影響は依然として重要な課題である。本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。クロスドメインによるゼロショット学習のためのmaesについて検討し,医療診断における一般的なシナリオである限定データから学習するモデルの能力を高める。画像のマスキングがモーダル学習に影響を与えないことを検証する。さらに,医用画像の特徴の表現学習を強化するためのSVD損失を提案し,そのようなデータの構造的複雑さを活用して分類精度を向上させることを目的とした。最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。マスクプロセスのMedFLIPスケーリングは、従来の計算ボトルネックを伴わずに、迅速かつ正確な医療画像解析のための経路を提供する、この分野の進歩を示す。実験と検証を通じて、MedFLIPは効率的なパフォーマンス向上を実証し、将来の研究の標準と医療診断への応用を定めている。

関連論文リスト

Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。 Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文参考訳（メタデータ） (2025-10-21T05:18:18Z)
Mask What Matters: Controllable Text-Guided Masking for Self-Supervised Medical Image Analysis [2.6554246520306624]
Mask What Mattersは、自己監督型医療画像分析のためのコントロール可能なテキスト誘導マスキングフレームワークである。既存のMIM法を一貫して上回り、分類精度で最大3.1ポイントの利得を得る。これらの改善は、全体のマスキング比を著しく低くする。
論文参考訳（メタデータ） (2025-09-27T02:26:56Z)
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文参考訳（メタデータ） (2025-06-22T08:09:58Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training [29.02600107837688]
本稿では,MMCLIP(Masked Medical Contrastive Language- Image Pre-Training)フレームワークを提案する。まず、注意マッピング画像モデリング(AttMIM)とエンティティ駆動マスキング言語モデリングモジュール(EntMLM)を紹介する。第2に、MMCLIPは、病原性プロンプトを導入してマルチモーダル学習を強化するために、不適切なデータを大まかに活用する。
論文参考訳（メタデータ） (2024-07-28T17:38:21Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
OPTiML: Dense Semantic Invariance Using Optimal Transport for Self-Supervised Medical Image Representation [6.4136876268620115]
自己教師付き学習(SSL)は、アノテーションなしで学習できることから、医用画像解析の有望な技術として登場した。本稿では, 最適トランスポート(OT)を用いたSSLフレームワークOPTiMLを導入し, 密接なセマンティック不変性と細粒度の詳細を捉える。実験の結果,OPTiMLはすべての評価課題において最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-04-18T02:59:48Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
FeaInfNet: Diagnosis in Medical Image with Feature-Driven Inference and Visual Explanations [4.022446255159328]
解釈可能なディープラーニングモデルは、画像認識の分野で広く注目を集めている。提案されている多くの解釈可能性モデルは、医用画像診断の精度と解釈性に問題がある。これらの問題を解決するために,機能駆動型推論ネットワーク(FeaInfNet)を提案する。
論文参考訳（メタデータ） (2023-12-04T13:09:00Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。 VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文参考訳（メタデータ） (2022-12-21T02:48:15Z)
Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文参考訳（メタデータ） (2022-09-19T09:43:19Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)
Medical Image Harmonization Using Deep Learning Based Canonical Mapping: Toward Robust and Generalizable Learning in Imaging [4.396671464565882]
多様な取得条件のデータを共通参照領域に"調和"する新しいパラダイムを提案する。我々は,MRIによる脳年齢予測と統合失調症の分類という,2つの問題に対して本手法を検証した。
論文参考訳（メタデータ） (2020-10-11T22:01:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。