論文の概要: Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models
- arxiv url: http://arxiv.org/abs/2506.08990v1
- Date: Tue, 10 Jun 2025 17:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.959258
- Title: Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models
- Title(参考訳): マスクドビジョンモデルへの適応による効率的な医用ビジョン・ランゲージアライメント
- Authors: Chenyu Lian, Hong-Yu Zhou, Dongyun Liang, Jing Qin, Liansheng Wang,
- Abstract要約: クロスモーダル・コントラッシブ・ラーニング (CLIP) 法は, 準最適視覚表現能力に悩まされる。
トレーニング可能なパラメータの約8%しか利用できない効率的な視覚言語アライメント手法であるALTA(Align Through Adapting)を提案する。
ALTAは、マスク付きレコードモデリングから事前学習された視覚モデルを適用することにより、検索やゼロショット分類などの視覚言語マッチングタスクにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 29.571937393873444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language alignment through cross-modal contrastive learning shows promising performance in image-text matching tasks, such as retrieval and zero-shot classification. However, conventional cross-modal contrastive learning (CLIP-based) methods suffer from suboptimal visual representation capabilities, which also limits their effectiveness in vision-language alignment. In contrast, although the models pretrained via multimodal masked modeling struggle with direct cross-modal matching, they excel in visual representation. To address this contradiction, we propose ALTA (ALign Through Adapting), an efficient medical vision-language alignment method that utilizes only about 8% of the trainable parameters and less than 1/5 of the computational consumption required for masked record modeling. ALTA achieves superior performance in vision-language matching tasks like retrieval and zero-shot classification by adapting the pretrained vision model from masked record modeling. Additionally, we integrate temporal-multiview radiograph inputs to enhance the information consistency between radiographs and their corresponding descriptions in reports, further improving the vision-language alignment. Experimental evaluations show that ALTA outperforms the best-performing counterpart by over 4% absolute points in text-to-image accuracy and approximately 6% absolute points in image-to-text retrieval accuracy. The adaptation of vision-language models during efficient alignment also promotes better vision and language understanding. Code is publicly available at https://github.com/DopamineLcy/ALTA.
- Abstract(参考訳): クロスモーダルコントラスト学習による医用視覚言語アライメントは、検索やゼロショット分類などの画像テキストマッチングタスクにおいて有望な性能を示す。
しかし,従来のクロスモーダル・コントラッシブ・ラーニング(CLIP-based)手法では,視覚的アライメントの効果も制限される。
対照的に、マルチモーダルマスクによるモデリングによって事前訓練されたモデルは、直接のクロスモーダルマッチングに苦しむが、視覚表現に優れる。
この矛盾に対処するために、トレーニング可能なパラメータの約8%とマスク付きレコードモデリングに必要な計算消費の1/5しか利用できない効率的な医療用視覚言語アライメント手法であるALTA(Align Through Adapting)を提案する。
ALTAは、マスク付きレコードモデリングから事前学習された視覚モデルを適用することにより、検索やゼロショット分類などの視覚言語マッチングタスクにおいて優れた性能を実現する。
さらに, 時間・マルチビューの無線画像入力を統合して, レポート中の無線画像とそれに対応する記述間の情報整合性を高め, 視覚言語アライメントをさらに改善する。
実験により、ALTAは、テキスト・画像の精度で4%以上の絶対点、画像・テキストの精度で6%以上の絶対点を達成し、最も優れた性能を発揮することが示された。
効率的なアライメントにおける視覚言語モデルの適応はまた、より良い視覚と言語理解を促進する。
コードはhttps://github.com/DopamineLcy/ALTAで公開されている。
関連論文リスト
- MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T21:09:32Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。