論文の概要: QwenCLIP: Boosting Medical Vision-Language Pretraining via LLM Embeddings and Prompt tuning
- arxiv url: http://arxiv.org/abs/2511.13876v1
- Date: Mon, 17 Nov 2025 19:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.770391
- Title: QwenCLIP: Boosting Medical Vision-Language Pretraining via LLM Embeddings and Prompt tuning
- Title(参考訳): QwenCLIP: LLM埋め込みとプロンプトチューニングによる医用視力訓練の促進
- Authors: Xiaoyang Wei, Camille Kurtz, Florence Cloppet,
- Abstract要約: 対照的な言語画像訓練(CLIP)は、医療領域における視覚言語タスクの強力な一般化を実証している。
CLIPのテキストエンコーダは77個のトークンしか受け入れないため、長く情報に富んだ放射線学レポートを表現できない。
QwenCLIPはCLIPのテキストエンコーダを大きな言語モデル(LLM)ベースの埋め込みモジュールに置き換える視覚言語フレームワークである。
- 参考スコア(独自算出の注目度): 1.8957478338649112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) has demonstrated strong generalization for vision-language tasks in computer vision and medical domains, yet its text encoder accepts only up to 77 tokens, which limits its ability to represent long and information-rich radiology reports. Recent adaptations using domain-specific encoders, such as PubMedBERT or ClinicalBERT, mitigate this issue by leveraging medical corpora, but remain constrained by their limited input length (typically 512 tokens) and relatively shallow semantic understanding. To address these limitations, we propose QwenCLIP, a vision-language framework that replaces CLIP's text encoder with a large language model (LLM)-based embedding module (e.g., Qwen3-Embedding) and introduces learnable prompts to enhance cross-modal alignment. By leveraging the extended context window and richer representations of LLMs, QwenCLIP captures comprehensive medical semantics from long-form clinical text, substantially improving medical image-text alignment and downstream performance on radiology benchmarks. Our code is publicly available at https://github.com/Wxy-24/QwenCLIP.
- Abstract(参考訳): 対照的に、CLIP(Contrastive Language- Image Pretraining)はコンピュータビジョンや医療領域における視覚言語タスクの強力な一般化を実証している。
PubMedBERT や ClinicalBERT などのドメイン固有エンコーダを用いた最近の適応は、医療コーパスを活用することでこの問題を軽減するが、入力長(典型的には512トークン)と比較的浅いセマンティック理解によって制限される。
これらの制限に対処するため、我々は、CLIPのテキストエンコーダを大言語モデル(LLM)ベースの埋め込みモジュール(例えば、Qwen3-Embedding)に置き換えるビジョン言語フレームワークであるQwenCLIPを提案し、クロスモーダルアライメントを強化するための学習可能なプロンプトを導入している。
拡張コンテキストウィンドウとLLMのより豊かな表現を活用することで、QwenCLIPは、長期臨床テキストから包括的な医療意味をキャプチャし、医用画像テキストアライメントとラジオロジーベンチマークのダウンストリームパフォーマンスを大幅に改善する。
私たちのコードはhttps://github.com/Wxy-24/QwenCLIP.comで公開されています。
関連論文リスト
- ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder [50.25233123718465]
CLIPテキストエンコーダは77トークンの最大入力長で制限される。
ProCLIPはカリキュラムベースのプログレッシブ・ビジョン言語アライメントフレームワークである。
論文 参考訳(メタデータ) (2025-10-21T16:48:49Z) - No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models [83.25473665239596]
本稿では,全文記事のコンテキスト認識記述に富んだ1MイメージキャプチャーペアのデータセットであるBIOMEDICA-LongCAPを紹介する。
我々は,最大512個のトークンのウィンドウをサポートするテキストエンコーダを備えた長文バイオメディカルVLMであるBMC-LongCLIPを訓練する。
私たちのモデルはコンテキスト容量を6.6倍に拡張し、トークンの無駄を55%から2.2%に削減します。
論文 参考訳(メタデータ) (2025-10-04T23:38:18Z) - GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification [4.922864692096282]
多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。
最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。
本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T09:59:39Z) - FIX-CLIP: Dual-Branch Hierarchical Contrastive Learning via Synthetic Captions for Better Understanding of Long Text [13.888406804533535]
3つの新しいモジュールを含むFIX-CLIPを提案する。
ショートテキストとロングテキストをそれぞれマスクと生画像で整列するデュアルブランチトレーニングパイプライン。
地域情報抽出のためのトランスフォーマー層における一方向マスクを用いた複数の学習可能な地域プロンプト
論文 参考訳(メタデータ) (2025-07-14T09:31:34Z) - Beyond Label Attention: Transparency in Language Models for Automated Medical Coding via Dictionary Learning [27.778160315671776]
辞書の特徴は, モデル行動の把握や, 医学的に無関係なトークンの90%以上の隠された意味の解明に有効であり, 人間の解釈が可能であることを示す。
辞書の特徴は, モデル行動の把握や, 医学的に無関係なトークンの90%以上の隠された意味の解明に有効であり, 人間の解釈が可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T19:39:40Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。