論文の概要: Uni-Mlip: Unified Self-supervision for Medical Vision Language Pre-training
- arxiv url: http://arxiv.org/abs/2411.15207v1
- Date: Wed, 20 Nov 2024 09:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:25:01.657650
- Title: Uni-Mlip: Unified Self-supervision for Medical Vision Language Pre-training
- Title(参考訳): Uni-Mlip:医療ビジョン言語事前トレーニングのための統一セルフスーパービジョン
- Authors: Ameera Bawazir, Kebin Wu, Wenbin Li,
- Abstract要約: Uni-Mlipは、医療ビジョン言語による事前訓練を強化するために設計された統合されたセルフスーパービジョンフレームワークである。
Uni-Mlipは、データレベルと機能レベルにおいて、相互モダリティ、ユニモダリティ、融合モダリティの自己スーパービジョン技術をシームレスに統合する。
実験の結果,Uni-Mlipは3つの重要な下流タスクにおいて,現在の最先端手法を大幅に上回っていることがわかった。
- 参考スコア(独自算出の注目度): 3.448980103001069
- License:
- Abstract: Recent advancements in vision-language pre-training via contrastive learning have significantly improved performance across computer vision tasks. However, in the medical domain, obtaining multimodal data is often costly and challenging due to privacy, sensitivity, and annotation complexity. To mitigate data scarcity while boosting model performance, we introduce \textbf{Uni-Mlip}, a unified self-supervision framework specifically designed to enhance medical vision-language pre-training. Uni-Mlip seamlessly integrates cross-modality, uni-modality, and fused-modality self-supervision techniques at the data-level and the feature-level. Additionally, Uni-Mlip tailors uni-modal image self-supervision to accommodate the unique characteristics of medical images. Our experiments across datasets of varying scales demonstrate that Uni-Mlip significantly surpasses current state-of-the-art methods in three key downstream tasks: image-text retrieval, image classification, and visual question answering (VQA).
- Abstract(参考訳): コントラスト学習による視覚言語事前学習の最近の進歩は、コンピュータビジョンタスクにおける性能を著しく向上させた。
しかし、医療分野では、プライバシ、感度、アノテーションの複雑さのために、マルチモーダルデータを取得するのに費用がかかることが多い。
モデル性能を向上しながらデータの不足を軽減するために,医療ビジョン言語による事前トレーニングを強化するために設計された,統合されたセルフスーパービジョンフレームワークである‘textbf{Uni-Mlip} を導入する。
Uni-Mlipは、データレベルと機能レベルにおいて、相互モダリティ、ユニモダリティ、融合モダリティの自己スーパービジョン技術をシームレスに統合する。
さらに、Uni-Mlipは、医用画像のユニークな特徴に対応するために、ユニモーダルイメージを自己監督する。
様々なスケールのデータセットを用いた実験により、Uni-Mlipは、画像テキスト検索、画像分類、視覚質問応答(VQA)という3つの重要な下流タスクにおいて、最先端の手法を大幅に上回っていることが示された。
関連論文リスト
- UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。