論文の概要: ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.17079v1
- Date: Tue, 17 Mar 2026 19:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.36845
- Title: ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models
- Title(参考訳): ACE-LoRA:医用ビジョンランゲージモデルのパラメータ効率適応のためのグラフ付き文脈強調
- Authors: M. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur,
- Abstract要約: 一般医用視覚言語モデル(VLM)のためのパラメータ効率適応フレームワークACE-LoRAを提案する。
ACE-LoRAはLow-Rank Adaptation (LoRA)モジュールをフリーズイメージテキストエンコーダに統合し、Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN)モジュールを導入している。
クロスモーダルアライメントをさらに強化するため、ラベル誘導InfoNCE損失を定式化し、意味論的に関連付けられた画像とテキストのペア間の偽陰性を効果的に抑制する。
- 参考スコア(独自算出の注目度): 11.752064799697713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.
- Abstract(参考訳): 自然画像上でのCLIPライクな視覚言語モデル(VLM)の成功は、医学的アプローチに影響を与えたが、既存のアプローチは、ドメイン固有の詳細をキャプチャするが一般化が不十分な単一ドメインデータで訓練されたスペシャリストモデルと、多ドメインデータで訓練された汎用的な医用VLMの2つの極端に大きく影響している。
この専門化と一般化のトレードオフをブリッジすることは依然として困難である。
この問題に対処するため、我々は、ゼロショットの堅牢な一般化を維持する汎用的な医療用VLMのためのパラメータ効率適応フレームワークであるACE-LoRAを提案する。
ACE-LoRAはLow-Rank Adaptation (LoRA) モジュールをフリーズイメージテキストエンコーダに統合し、Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) モジュールを導入している。
クロスモーダルアライメントをさらに強化するため、ラベル誘導InfoNCE損失を定式化し、意味論的に関連付けられた画像とテキストのペア間の偽陰性を効果的に抑制する。
0.95Mのトレーニング可能なパラメータしか追加していないが、ACE-LoRAは、ゼロショット分類、セグメンテーション、複数のドメインにまたがる検出ベンチマークにおいて、最先端の医療用VLMとPEFTベースラインを一貫して上回っている。
私たちのコードはhttps://github.com/icon-lab/ACE-LoRA.comで利用可能です。
関連論文リスト
- HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - Contrastive Graph Modeling for Cross-Domain Few-Shot Medical Image Segmentation [58.41482540044918]
クロスドメイン少ショット医療画像セグメンテーション(CD-FSMIS)は医療応用に有望でデータ効率のよいソリューションを提供する。
本稿では,医用画像の構造的整合性を利用したコントラストグラフモデリング(C-Graph)を提案する。
論文 参考訳(メタデータ) (2025-12-25T14:00:17Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift [12.373281238541296]
医療ビジョン言語モデル(VLM)は、臨床診断支援を約束するが、分布シフトによる信頼性は、安全なデプロイメントにとって大きな関心事である。
そこで我々はDRiFtを提案する。DRiFtは機能分離フレームワークで、臨床的に関連する信号をタスク非依存のノイズから明確に分離する。
提案手法は,従来のプロンプトベースの手法に比べて,Top-1精度+11.4%,Macro-F1+3.3%向上する。
論文 参考訳(メタデータ) (2025-09-11T12:26:57Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - FedSemiDG: Domain Generalized Federated Semi-supervised Medical Image Segmentation [19.87797382888023]
医用画像の多様性とラベル付きデータの欠如により、医用画像のセグメンテーションは困難である。
本稿では,FedSemiDGの課題に対処するため,FGASL(Federated Generalization-Aware Semi Supervised Learning)という新しいフレームワークを提案する。
提案手法は最先端のFSSLおよびドメインの一般化手法を著しく上回り,未確認領域に対する堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-01-13T14:54:49Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。