論文の概要: SCALE-VLP: Soft-Weighted Contrastive Volumetric Vision-Language Pre-training with Spatial-Knowledge Semantics
- arxiv url: http://arxiv.org/abs/2511.02996v1
- Date: Tue, 04 Nov 2025 21:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.243556
- Title: SCALE-VLP: Soft-Weighted Contrastive Volumetric Vision-Language Pre-training with Spatial-Knowledge Semantics
- Title(参考訳): SCALE-VLP:空間知識セマンティックスを用いたソフトウェイトコントラストボリュームビジョンランゲージ事前学習
- Authors: Ailar Mahdizadeh, Puria Azadi Moghadam, Xiangteng He, Shahriar Mirabbasi, Panos Nasiopoulos, Leonid Sigal,
- Abstract要約: 既存のアプローチでは、スキャンを独立した2Dスライスとして扱い、空間コヒーレンスを妥協し、臨床的意味論を過小評価する。
空間意味論とドメイン認識表現を統合したソフトウェイトなコントラスト型視覚言語学習フレームワークを提案する。
これにより、構造的に一貫性があり、セマンティックに根ざした表現が監督され、クロスタスクの転送可能性(検索、レポート生成、分類)とドメイン間の一般化可能性を示す。
- 参考スコア(独自算出の注目度): 31.49282177777596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated strong cross-modal capabilities, yet most work remains limited to 2D data and assumes binary supervision (i.e., positive vs. negative pairs), overlooking the continuous and structured dependencies present in volumetric data such as CT. Existing approaches often treat volumetric scans as independent 2D slices, compromising spatial coherence and underutilizing rich clinical semantics. We propose SCALE-VLP, a soft-weighted contrastive vision-language pre-training framework that integrates (i) volumetric spatial semantics to preserve anatomical structure and (ii) domain-aware, knowledge-infused semantics (e.g., radiological ontologies) to guide alignment. This yields structurally consistent and semantically grounded representations under limited supervision, demonstrating strong cross-task transferability (retrieval, report generation, and classification), and cross-domain generalizability with consistent gains without further fine-tuning. In particular, compared to the previous state of the art, SCALE-VLP achieves up to 4.3x higher top-1 CT-report retrieval, improves abnormality classification by 10 points, and reaches ROUGE-L 0.44 and BERT-F1 0.89 for report generation. Further, in zero-shot evaluation on an out-of-domain external dataset, we observe consistent gains, indicating the cross-task and cross-domain generalization ability of SCALE-VLP.
- Abstract(参考訳): 視覚言語モデル(VLM)は強力なクロスモーダルな機能を示しているが、ほとんどの研究は2次元データに限られており、CTのようなボリュームデータに存在する連続的および構造化された依存関係を見越してバイナリ・インスペクション(正対対対)を前提としている。
既存のアプローチでは、ボリュームスキャンを独立した2Dスライスとして扱い、空間コヒーレンスを妥協し、リッチな臨床的意味論を弱めている。
ソフトウェイトでコントラストのある視覚言語事前学習フレームワークであるSCALE-VLPを提案する。
一 解剖学的構造を維持するための体積空間意味論
(i)アライメントを導くためのドメイン意識、知識注入セマンティクス(例:放射線オントロジー)。
これにより、制限された監督の下で構造的に一貫した意味的基礎を持つ表現が得られ、強力なクロスタスク転送可能性(検索、レポート生成、分類)を示し、さらに微調整することなく一貫したゲインを持つクロスドメインの一般化可能性を示す。
特に、従来の最先端と比較して、SCALE-VLPは最大4.3倍高いトップ-1CTレポート検索を実現し、異常分類を10ポイント改善し、レポート生成のためにROUGE-L 0.44およびBERT-F1 0.89に達する。
さらに、ドメイン外外部データセットのゼロショット評価では、SCALE-VLPのクロスタスクおよびクロスドメイン一般化能力を示す一貫したゲインを観察する。
関連論文リスト
- PF-DAformer: Proximal Femur Segmentation via Domain Adaptive Transformer for Dual-Center QCT [8.358409792893278]
多施設定量的CT(QCT)に適したドメイン適応型トランスフォーマーセグメンテーションフレームワークを開発した。
当モデルでは, タラネ大学から1024個のQCT画像スキャン, ミネソタ州ロチェスターから384個の画像スキャンを行い, 大腿骨近位部セグメンテーションを行った。
論文 参考訳(メタデータ) (2025-10-30T18:07:56Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Learning from Heterogeneous Structural MRI via Collaborative Domain Adaptation for Late-Life Depression Assessment [24.340328016766183]
T1強調MRIを用いたLDD検出のための協調的ドメイン適応フレームワークを提案する。
このフレームワークは、ラベル付きソースデータに対する教師付きトレーニング、自己教師付きターゲット特徴適応、ラベルなしターゲットデータに対する協調トレーニングの3段階で構成されている。
マルチサイトT1強調MRIデータを用いて行った実験により、このフレームワークは最先端の非教師なし領域適応法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-07-30T01:38:32Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - Multi-Scale Cross Contrastive Learning for Semi-Supervised Medical Image
Segmentation [14.536384387956527]
医用画像の構造を分割するマルチスケールクロススーパービジョンコントラスト学習フレームワークを開発した。
提案手法は,頑健な特徴表現を抽出するために,地上構造と横断予測ラベルに基づくマルチスケール特徴と対比する。
Diceでは最先端の半教師あり手法を3.0%以上上回っている。
論文 参考訳(メタデータ) (2023-06-25T16:55:32Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。