論文の概要: Representation geometry shapes task performance in vision-language modeling for CT enterography
- arxiv url: http://arxiv.org/abs/2604.13021v1
- Date: Tue, 14 Apr 2026 17:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.601
- Title: Representation geometry shapes task performance in vision-language modeling for CT enterography
- Title(参考訳): CTエンテログラフィの視覚言語モデリングにおける表現幾何学形状とタスクパフォーマンス
- Authors: Cristian Minoccheri, Emily Wittrup, Kayvan Najarian, Ryan Stidham,
- Abstract要約: 腹部CT検査における視覚言語変換学習の初回研究について報告する。
スライスを埋め込むことで 分類学的疾患の評価が向上します
組織ごとのコントラストは、より広い空間カバレッジよりも重要である。
- 参考スコア(独自算出の注目度): 1.1999555634662633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computed tomography (CT) enterography is a primary imaging modality for assessing inflammatory bowel disease (IBD), yet the representational choices that best support automated analysis of this modality are unknown. We present the first study of vision-language transfer learning on abdominal CT enterography and identify two main findings. First, mean pooling of slice embeddings gives better categorical disease assessment (59.2\% three-class accuracy), whereas attention pooling gives better cross-modal retrieval (0.235 text-to-image MRR). This pattern holds across all LoRA configurations tested and suggests that the two aggregators emphasize different properties of the learned representation. Second, per-slice tissue contrast matters more than broader spatial coverage: multi-window RGB encoding, which maps complementary Hounsfield Unit windows to RGB channels, outperforms all strategies that increase spatial coverage through multiplanar sampling, and in this setting adding coronal and sagittal views reduces classification performance. For report generation, fine-tuning without retrieval context yields within-1 severity accuracy at the prevalence-matched chance level (70.4\% vs.\ 71\% random), suggesting little learned ordering beyond the class distribution. Retrieval-augmented generation (RAG) improves this across all configurations, scoring 7--14 percentage points above the chance baseline and improving ordinal MAE from 0.98 to 0.80--0.89. A three-teacher pseudolabel framework enables all comparisons without expert annotations. Together, these findings provide the first baselines for this underexplored modality and offer practical guidance for building vision-language systems for volumetric medical imaging.
- Abstract(参考訳): CTは炎症性腸疾患 (IBD) を診断するための主要な画像モダリティであるが, このモダリティの自動解析を最も支援する表現的選択は分かっていない。
腹部CT検査における視覚-言語移行学習の初回研究を行い,2つの主要な所見を同定した。
第一に、スライス埋め込みの平均プーリングは、分類学的疾患の評価(59.2\%の3クラス精度)を改善する一方、注意プーリングは、より良いモダル検索(0.235テキスト・ツー・イメージMRR)をもたらす。
このパターンはテストされたすべてのLoRA構成にまたがっており、2つのアグリゲータが学習された表現の異なる特性を強調することを示唆している。
第2に、マルチウィンドウRGBエンコーディングは、相補的なハウンズフィールドユニットウィンドウをRGBチャネルにマッピングし、マルチプラナーサンプリングによって空間的カバレッジを増大させる全ての戦略を上回り、この設定では、冠と矢状ビューを追加することで分類性能が低下する。
レポート生成では、検索コンテキストのない微調整は、有病率マッチングされた確率レベル(70.4\%対)で1度以内の精度が得られる。
71 % ランダム) は、クラス分布を超えた順序付けをほとんど学習していないことを示唆している。
Retrieval-augmented Generation (RAG)は、全ての構成でこれを改善し、チャンスベースラインより7-14パーセント高く、順序MAEを0.98から0.80--0.89に改善する。
3つの教師による擬似ラベルフレームワークは、専門家のアノテーションなしですべての比較を可能にする。
これらの知見は,この過小なモダリティの初歩的な基礎と,ボリューム医療画像のための視覚言語システム構築のための実践的ガイダンスを提供するものである。
関連論文リスト
- Comparison of ConvNeXt and Vision-Language Models for Breast Density Assessment in Screening Mammography [39.58317527488534]
本研究では,BI-RADSシステムを用いた自動分類のためのマルチモーダル法とCNN法の比較を行った。
ゼロショット分類は、微調整されたConvNeXtモデルがBioMedCLIP線形プローブよりも優れた性能を示した。
これらの結果から, マルチモーダル学習の約束にもかかわらず, エンドツーエンドの微調整を施したCNNモデルの方が, 医用画像の特化に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-16T20:14:37Z) - MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention [1.2277343096128712]
本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダを支援する視覚的プロンプトキューとして,Segment Anything Model 2(SAM2)の高度なセグメンテーション機能を活用することを提案する。
これにより、視覚的に類似したバックグラウンド機能に気を散らすことなく、非常に差別的な領域に集中することができる。
提案手法は,X線,CTスキャン,MRI画像など多種多様な医療データセットを用いて評価し,提案手法の精度(71%,81%,86%,58%)を報告する。
論文 参考訳(メタデータ) (2025-01-07T14:49:12Z) - Analysis of the Two-Step Heterogeneous Transfer Learning for Laryngeal Blood Vessel Classification: Issue and Improvement [8.7937485450551]
本研究は喉頭病変分類のための2段階ヘテロジニアストランスファーラーニング(THTL)のパイオニアである。
中間領域は糖尿病網膜症カラー・ファンドス画像,意味的には非同一であるが血管像である。
本稿では、SWFT(Step-Wise Fine-Tuning)と呼ばれるTHTLの微調整戦略を改良し、ResNetモデルに適用する。
論文 参考訳(メタデータ) (2024-02-29T09:52:39Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Assessing Coarse-to-Fine Deep Learning Models for Optic Disc and Cup
Segmentation in Fundus Images [0.0]
粗い深層学習アルゴリズムは、底面画像の鉛直カップ・トゥ・ディスク比(vCDR)を効率的に測定するために用いられる。
5つの公開データベースを用いたOD/OCセグメンテーションのための粗粒度設計の包括的解析を行う。
分析の結果,これらのアルゴリズムは必ずしも標準のマルチクラスシングルステージモデルより優れているとは限らないことがわかった。
論文 参考訳(メタデータ) (2022-09-28T19:19:16Z) - HistoPerm: A Permutation-Based View Generation Approach for Improving
Histopathologic Feature Representation Learning [33.1098457952173]
HistoPermは共同埋め込みアーキテクチャを用いた表現学習のためのビュー生成手法である。
HistoPermは、全スライディングのヒストロジー画像から抽出したパッチの増分ビューを置換し、分類性能を向上させる。
以上の結果から,HistoPermは,精度,F1スコア,AUCの点で,パッチレベルとスライドレベルの分類性能を一貫して向上させることがわかった。
論文 参考訳(メタデータ) (2022-09-13T17:35:08Z) - Cross-Site Severity Assessment of COVID-19 from CT Images via Domain
Adaptation [64.59521853145368]
CT画像によるコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は,集中治療単位のイベント推定に有効である。
ラベル付きデータを拡張し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。
この課題は、軽度の感染症と重度の感染症の集団不均衡、部位間のドメイン分布の相違、不均一な特徴の存在など、いくつかの課題に直面する。
論文 参考訳(メタデータ) (2021-09-08T07:56:51Z) - An interpretable classifier for high-resolution breast cancer screening
images utilizing weakly supervised localization [45.00998416720726]
医用画像の特徴に対処する枠組みを提案する。
このモデルはまず、画像全体の低容量だがメモリ効率のよいネットワークを使用して、最も情報性の高い領域を識別する。
次に、選択したリージョンから詳細を収集するために、別の高容量ネットワークを適用します。
最後に、グローバルおよびローカル情報を集約して最終的な予測を行うフュージョンモジュールを使用する。
論文 参考訳(メタデータ) (2020-02-13T15:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。