論文の概要: Embedding Radiomics into Vision Transformers for Multimodal Medical Image Classification
- arxiv url: http://arxiv.org/abs/2504.10916v1
- Date: Tue, 15 Apr 2025 06:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:06:48.014514
- Title: Embedding Radiomics into Vision Transformers for Multimodal Medical Image Classification
- Title(参考訳): マルチモーダル医用画像分類のための視覚変換器への放射能埋め込み
- Authors: Zhenyu Yang, Haiming Zhu, Rihui Zhang, Haipeng Zhang, Jianliang Wang, Chunhao Wang, Minbin Chen, Fang-Fang Yin,
- Abstract要約: ビジョントランスフォーマー(ViT)は、自己注意を通じて長距離依存をモデル化することで、畳み込みモデルの強力な代替手段を提供する。
本稿では、放射能特徴とデータ駆動型視覚埋め込みをViTバックボーン内に組み込んだRE-ViT(Radiomics-Embedded Vision Transformer)を提案する。
- 参考スコア(独自算出の注目度): 10.627136212959396
- License:
- Abstract: Background: Deep learning has significantly advanced medical image analysis, with Vision Transformers (ViTs) offering a powerful alternative to convolutional models by modeling long-range dependencies through self-attention. However, ViTs are inherently data-intensive and lack domain-specific inductive biases, limiting their applicability in medical imaging. In contrast, radiomics provides interpretable, handcrafted descriptors of tissue heterogeneity but suffers from limited scalability and integration into end-to-end learning frameworks. In this work, we propose the Radiomics-Embedded Vision Transformer (RE-ViT) that combines radiomic features with data-driven visual embeddings within a ViT backbone. Purpose: To develop a hybrid RE-ViT framework that integrates radiomics and patch-wise ViT embeddings through early fusion, enhancing robustness and performance in medical image classification. Methods: Following the standard ViT pipeline, images were divided into patches. For each patch, handcrafted radiomic features were extracted and fused with linearly projected pixel embeddings. The fused representations were normalized, positionally encoded, and passed to the ViT encoder. A learnable [CLS] token aggregated patch-level information for classification. We evaluated RE-ViT on three public datasets (including BUSI, ChestXray2017, and Retinal OCT) using accuracy, macro AUC, sensitivity, and specificity. RE-ViT was benchmarked against CNN-based (VGG-16, ResNet) and hybrid (TransMed) models. Results: RE-ViT achieved state-of-the-art results: on BUSI, AUC=0.950+/-0.011; on ChestXray2017, AUC=0.989+/-0.004; on Retinal OCT, AUC=0.986+/-0.001, which outperforms other comparison models. Conclusions: The RE-ViT framework effectively integrates radiomics with ViT architectures, demonstrating improved performance and generalizability across multimodal medical image classification tasks.
- Abstract(参考訳): 背景: ディープラーニングは医療画像分析を著しく進歩させており、視覚変換器(ViT)は、自己注意を通じて長距離依存をモデル化することによって、畳み込みモデルの強力な代替手段を提供する。
しかし、ViTは本質的にデータ集約であり、ドメイン固有の誘導バイアスが欠如しており、医療画像における適用性が制限されている。
対照的に、放射能は組織の不均一性の解釈可能な手作り記述子を提供するが、限られたスケーラビリティとエンドツーエンドの学習フレームワークへの統合に悩まされている。
本研究では、放射能特徴とデータ駆動型視覚埋め込みをViTバックボーン内に組み込んだRE-ViT(Radiomics-Embedded Vision Transformer)を提案する。
目的: 放射線とパッチワイドのViT埋め込みを早期融合により統合し, 医用画像分類における堅牢性と性能を向上させるハイブリッドRE-ViTフレームワークを開発すること。
メソッド: 標準のViTパイプラインに続いて、イメージはパッチに分割された。
各パッチに対して、手作りの放射能の特徴を抽出し、線形投影された画素埋め込みで融合した。
融合表現は正規化され、位置エンコードされ、ViTエンコーダに渡される。
学習可能な[CLS]トークンは、分類のためのパッチレベル情報を集約する。
BUSI, ChestXray 2017, Retinal OCTを含む3つの公開データセット上でのRE-ViTの精度, マクロAUC, 感度, 特異性を評価した。
RE-ViTはCNNベース(VGG-16、ResNet)とハイブリッド(TransMed)モデルに対してベンチマークされた。
結果: RE-ViT は BUSI, AUC=0.950+/-0.011, ChestXray2017, AUC=0.989+/-0.004, Retinal OCT, AUC=0.986+/-0.001, 他の比較モデルより優れている。
結論: RE-ViTフレームワークは、放射線とViTアーキテクチャを効果的に統合し、マルチモーダルな医用画像分類タスクにおけるパフォーマンスと一般化性の向上を示す。
関連論文リスト
- RaViTT: Random Vision Transformer Tokens [0.41776442767736593]
視覚変換器(ViT)は、大きな注釈付きデータセットが利用できる画像分類問題にうまく適用されている。
既存のViTに組み込んだランダムパッチサンプリング戦略であるRaViTT(Random Vision Transformer Tokens)を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:24:59Z) - ViT-DAE: Transformer-driven Diffusion Autoencoder for Histopathology
Image Analysis [4.724009208755395]
高品質な病理画像合成のための視覚変換器(ViT)と拡散オートエンコーダを統合したViT-DAEを提案する。
提案手法は, 実写画像生成におけるGAN法とバニラDAE法より優れている。
論文 参考訳(メタデータ) (2023-04-03T15:00:06Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - MultiCrossViT: Multimodal Vision Transformer for Schizophrenia
Prediction using Structural MRI and Functional Network Connectivity Data [0.0]
Vision Transformer (ViT)は、現実世界のコンピュータビジョン問題に対処できる先駆的なディープラーニングフレームワークである。
ViTは畳み込みニューラルネットワーク(CNN)のような従来のディープラーニングモデルを上回ることが証明されている
論文 参考訳(メタデータ) (2022-11-12T19:07:25Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Vision Transformer using Low-level Chest X-ray Feature Corpus for
COVID-19 Diagnosis and Severity Quantification [25.144248675578286]
バックボーンネットワークから得られた低レベルCXR特徴コーパスを利用した新しいビジョントランスフォーマーを提案する。
バックボーンネットワークはまず、一般的な異常発見を検出するために、大きなパブリックデータセットでトレーニングされる。
次に、バックボーンネットワークからの埋め込み機能は、COVID-19の診断および重症度定量のためのトランスフォーマーモデルのコーポラとして使用されます。
論文 参考訳(メタデータ) (2021-04-15T04:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。