論文の概要: NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2508.04101v1
- Date: Wed, 06 Aug 2025 05:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.561802
- Title: NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding
- Title(参考訳): NEARL-CLIP : 直交正則化による医用視覚言語理解のための対話型クエリ適応
- Authors: Zelin Peng, Yichen Zhao, Yu Huang, Piao Yang, Feilong Tang, Zhengqin Xu, Xiaokang Yang, Wei Shen,
- Abstract要約: textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
- 参考スコア(独自算出の注目度): 51.63264715941068
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Computer-aided medical image analysis is crucial for disease diagnosis and treatment planning, yet limited annotated datasets restrict medical-specific model development. While vision-language models (VLMs) like CLIP offer strong generalization capabilities, their direct application to medical imaging analysis is impeded by a significant domain gap. Existing approaches to bridge this gap, including prompt learning and one-way modality interaction techniques, typically focus on introducing domain knowledge to a single modality. Although this may offer performance gains, it often causes modality misalignment, thereby failing to unlock the full potential of VLMs. In this paper, we propose \textbf{NEARL-CLIP} (i\underline{N}teracted qu\underline{E}ry \underline{A}daptation with o\underline{R}thogona\underline{L} Regularization), a novel cross-modality interaction VLM-based framework that contains two contributions: (1) Unified Synergy Embedding Transformer (USEformer), which dynamically generates cross-modality queries to promote interaction between modalities, thus fostering the mutual enrichment and enhancement of multi-modal medical domain knowledge; (2) Orthogonal Cross-Attention Adapter (OCA). OCA introduces an orthogonality technique to decouple the new knowledge from USEformer into two distinct components: the truly novel information and the incremental knowledge. By isolating the learning process from the interference of incremental knowledge, OCA enables a more focused acquisition of new information, thereby further facilitating modality interaction and unleashing the capability of VLMs. Notably, NEARL-CLIP achieves these two contributions in a parameter-efficient style, which only introduces \textbf{1.46M} learnable parameters.
- Abstract(参考訳): コンピュータ支援医療画像解析は、疾患の診断と治療計画に不可欠であるが、注釈付きデータセットは医療固有のモデル開発を制限する。
CLIPのような視覚言語モデル(VLM)は強力な一般化機能を提供するが、医療画像解析への直接的な適用は、大きなドメインギャップによって妨げられる。
素早い学習や一方的なモダリティ相互作用技術を含む、このギャップを埋めるための既存のアプローチは、通常、単一のモダリティにドメイン知識を導入することに焦点を当てます。
これは性能向上をもたらす可能性があるが、しばしばモダリティのミスアライメントを引き起こすため、VLMの完全な可能性を解き放たない。
本論では,(1)統一相乗組込み変換器(USEformer)を動的に生成し,モダリティ間の相互作用を促進することにより,相互強化とマルチモーダルな医療ドメイン知識の強化を図る。(2)オーソゴナルなクロスアテンション適応器(OCA)。
OCAは、新しい知識をUSEformerから分離する直交法を導入し、真に新しい情報と漸進的な知識の2つのコンポーネントに分割する。
段階的な知識の干渉から学習プロセスを分離することにより、OCAはより焦点を絞った情報取得を可能にし、モダリティの相互作用をさらに促進し、VLMの能力を開放する。
特に、NEARL-CLIPはこれらの2つのコントリビューションをパラメータ効率のよいスタイルで達成している。
関連論文リスト
- DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Measuring Cross-Modal Interactions in Multimodal Models [9.862551438475666]
既存のAIメソッドは、複数のデータソースの複合的な影響を理解するために不可欠な、モーダル間インタラクションをキャプチャできない。
本稿では,既存のアプローチの限界に対処する相互モーダルインタラクションスコアであるInterSHAPを紹介する。
我々は,InterSHAPが相互モーダル相互作用の存在を正確に測定し,複数のモーダルを扱えることを示す。
論文 参考訳(メタデータ) (2024-12-20T12:11:20Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - MedualTime: A Dual-Adapter Language Model for Medical Time Series-Text Multimodal Learning [27.22751020503897]
MedualTimeは、テンポラリ・プライマリとテキスト・プライマリ・モデリングを同時に実装する2つのアダプタで構成される言語モデルである。
MedualTimeは、医療データ上での優れたパフォーマンスを示し、教師付き設定で8%の精度と12%のF1を顕著に改善した。
論文 参考訳(メタデータ) (2024-06-07T14:34:28Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Towards Cross-modality Medical Image Segmentation with Online Mutual
Knowledge Distillation [71.89867233426597]
本稿では,あるモダリティから学習した事前知識を活用し,別のモダリティにおけるセグメンテーション性能を向上させることを目的とする。
モーダル共有知識を徹底的に活用する新しい相互知識蒸留法を提案する。
MMWHS 2017, MMWHS 2017 を用いた多クラス心筋セグメンテーション実験の結果, CT セグメンテーションに大きな改善が得られた。
論文 参考訳(メタデータ) (2020-10-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。