論文の概要: Unified Supervision For Vision-Language Modeling in 3D Computed Tomography
- arxiv url: http://arxiv.org/abs/2509.01554v1
- Date: Mon, 01 Sep 2025 15:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.75181
- Title: Unified Supervision For Vision-Language Modeling in 3D Computed Tomography
- Title(参考訳): 3次元CTにおけるビジョン・ランゲージ・モデリングのための統一的スーパービジョン
- Authors: Hao-Chih Lee, Zelong Liu, Hamza Ahmed, Spencer Kim, Sean Huver, Vishwesh Nath, Zahi A. Fayad, Timothy Deyer, Xueyan Mei,
- Abstract要約: 汎用視覚言語モデル(VLM)は放射線学において有望なツールとして登場し、ゼロショット機能を提供している。
診断放射線学のような高度な領域では、これらのモデルは信頼できる臨床使用に必要な識別精度を欠いていることが多い。
分類ラベルやセグメンテーションマスクにエンコードされた多種多様な監視信号を統合するボリュームVLMであるUniferumを,単一のトレーニングフレームワークに導入する。
- 参考スコア(独自算出の注目度): 1.4193731654133002
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: General-purpose vision-language models (VLMs) have emerged as promising tools in radiology, offering zero-shot capabilities that mitigate the need for large labeled datasets. However, in high-stakes domains like diagnostic radiology, these models often lack the discriminative precision required for reliable clinical use. This challenge is compounded by the scarcity and heterogeneity of publicly available volumetric CT datasets, which vary widely in annotation formats and granularity. To address these limitations, we introduce Uniferum, a volumetric VLM that unifies diverse supervision signals, encoded in classification labels and segmentation masks, into a single training framework. By harmonizing three public 3D CT datasets with distinct annotations, Uniferum achieves state-of-the-art performance, improving AUROC on the CT-RATE benchmark by 7% compared to CLIP-based and conventional multi-label convolutional models. The model demonstrates robust out-of-distribution generalization, with observed evidence of unexpected zero-shot performance on the RAD-CHEST and INSPECT datasets. Our results highlight the effectiveness of integrating heterogeneous annotations and body segmentation to enhance model performance, setting a new direction for clinically reliable, data-efficient VLMs in 3D medical imaging.
- Abstract(参考訳): 汎用視覚言語モデル(VLM)は、ラジオロジーにおいて有望なツールとして登場し、大きなラベル付きデータセットの必要性を軽減するゼロショット機能を提供する。
しかし、診断放射線学のような高度な領域では、これらのモデルは信頼できる臨床使用に必要な識別精度を欠いていることが多い。
この課題は、アノテーションの形式や粒度によって大きく異なる、公開可能なボリュームCTデータセットの不足と不均一性によって複雑化されている。
これらの制約に対処するために、分類ラベルやセグメンテーションマスクにエンコードされた多様な監視信号を統合するボリュームVLMであるUniferumを、単一のトレーニングフレームワークに導入する。
3つの公開3次元CTデータセットを異なるアノテーションで調和させることで、Uniferumは最先端のパフォーマンスを実現し、CT-RATEベンチマークのAUROCをCLIPベースの従来のマルチラベル畳み込みモデルと比較して7%改善した。
このモデルは、RAD-CHEST と INSPECT データセット上で予期せぬゼロショット性能の証拠を観察することで、ロバストなアウト・オブ・ディストリビューションの一般化を示す。
以上より, 同種アノテーションとボディセグメンテーションを併用し, モデル性能を向上し, 3次元医用画像における臨床的に信頼性が高く, データ効率のよいVLMの新たな方向性を定めている。
関連論文リスト
- Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation [0.57492870498084]
我々は、もともとマルチバンド画像用に設計されたトランスフォーマーベースモデルであるAMBERを、3次元医療データキューブセグメンテーションのタスクに適用する。
AMBER-AFNOは、トレーニング効率、推論速度、メモリ使用量を大幅に向上させ、競争力または優れた精度を達成する。
論文 参考訳(メタデータ) (2025-08-03T22:31:00Z) - GANet-Seg: Adversarial Learning for Brain Tumor Segmentation with Hybrid Generative Models [1.0456203870202954]
この研究は、事前訓練されたGANとUnetアーキテクチャを利用した脳腫瘍セグメンテーションのための新しいフレームワークを導入する。
グローバルな異常検出モジュールと改良されたマスク生成ネットワークを組み合わせることで,腫瘍感受性領域を正確に同定する。
マルチモーダルMRIデータと合成画像拡張を用いて、ロバスト性を改善し、限られたアノテートデータセットの課題に対処する。
論文 参考訳(メタデータ) (2025-06-26T13:28:09Z) - Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis [4.803310914375717]
本研究では,3つの視覚言語基盤モデル(RAD-DINO,CheXagent,BiomedCLIP)を,放射線学タスクの微細な画像特徴を捉える能力について評価した。
胸部X線写真上, 気胸, 心肥大に対する分類, セグメンテーション, 回帰作業で評価した。
論文 参考訳(メタデータ) (2025-04-22T17:20:34Z) - Improving 3D Medical Image Segmentation at Boundary Regions using Local Self-attention and Global Volume Mixing [14.0825980706386]
ボリューム・メディカル・イメージ・セグメンテーションは、与えられた3次元ボリューム・メディカル・イメージをボクセルレベルの精度で正確に分類することを目的とする医用画像解析の基本的な問題である。
本研究では,3次元医用画像セグメンテーションにおける局所的およびグローバルな依存関係を明示的に捉えることを目的とした,階層型エンコーダデコーダベースの新しいフレームワークを提案する。
提案フレームワークは,局所的なボリュームベースの自己アテンションを利用して局所的な依存関係を高解像度でエンコードし,低解像度の特徴表現でグローバルな依存関係をキャプチャする新しいボリュームミキサを導入する。
論文 参考訳(メタデータ) (2024-10-20T11:08:38Z) - Towards Synergistic Deep Learning Models for Volumetric Cirrhotic Liver Segmentation in MRIs [1.5228650878164722]
世界的死亡の主な原因である肝硬変は、効果的な疾患モニタリングと治療計画のためにROIを正確に区分する必要がある。
既存のセグメンテーションモデルは、複雑な機能インタラクションをキャプチャして、さまざまなデータセットをまたいだ一般化に失敗することが多い。
本稿では、補間潜在空間を拡張的特徴相互作用モデリングに活用する新しい相乗論的理論を提案する。
論文 参考訳(メタデータ) (2024-08-08T14:41:32Z) - ARC: A Generalist Graph Anomaly Detector with In-Context Learning [62.202323209244]
ARCは汎用的なGADアプローチであり、一対一のGADモデルで様々なグラフデータセットの異常を検出することができる。
ARCはコンテキスト内学習を備えており、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。
各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
論文 参考訳(メタデータ) (2024-05-27T02:42:33Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。