論文の概要: MedITok: A Unified Tokenizer for Medical Image Synthesis and Interpretation
- arxiv url: http://arxiv.org/abs/2505.19225v1
- Date: Sun, 25 May 2025 16:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.990136
- Title: MedITok: A Unified Tokenizer for Medical Image Synthesis and Interpretation
- Title(参考訳): MedITok: 医用画像合成・解釈のための統一型トケナイザ
- Authors: Chenglong Ma, Yuanfeng Ji, Jin Ye, Zilong Li, Chenhui Wang, Junzhi Ning, Wei Li, Lihao Liu, Qiushan Guo, Tianbin Li, Junjun He, Hongming Shan,
- Abstract要約: 医用画像に適した最初の統一トークン化ツールであるMedITokについて紹介する。
低レベルの構造の詳細と、統合潜在空間内の高レベルの臨床的意味をエンコードする。
9つの画像モダリティと4つの異なるタスクにわたる30以上のデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 23.783507307500116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced autoregressive models have reshaped multimodal AI. However, their transformative potential in medical imaging remains largely untapped due to the absence of a unified visual tokenizer -- one capable of capturing fine-grained visual structures for faithful image reconstruction and realistic image synthesis, as well as rich semantics for accurate diagnosis and image interpretation. To this end, we present MedITok, the first unified tokenizer tailored for medical images, encoding both low-level structural details and high-level clinical semantics within a unified latent space. To balance these competing objectives, we introduce a novel two-stage training framework: a visual representation alignment stage that cold-starts the tokenizer reconstruction learning with a visual semantic constraint, followed by a textual semantic representation alignment stage that infuses detailed clinical semantics into the latent space. Trained on the meticulously collected large-scale dataset with over 30 million medical images and 2 million image-caption pairs, MedITok achieves state-of-the-art performance on more than 30 datasets across 9 imaging modalities and 4 different tasks. By providing a unified token space for autoregressive modeling, MedITok supports a wide range of tasks in clinical diagnostics and generative healthcare applications. Model and code will be made publicly available at: https://github.com/Masaaki-75/meditok.
- Abstract(参考訳): 高度な自己回帰モデルは、マルチモーダルAIを形変えた。
しかし、医用画像におけるその変換可能性の大部分は、統一された視覚トークン化装置が存在しないために、忠実な画像再構成と現実的な画像合成のためのきめ細かい視覚構造を捉えることができず、また、正確な診断と画像解釈のためのリッチなセマンティクスが欠如している。
この目的のために、医用画像に適した最初の統一トークン化ツールであるMedITokを紹介し、低レベル構造詳細と高レベル臨床意味論の両方を統一潜在空間内に符号化する。
これらの競合する目標のバランスをとるために,コントラクタの再構成学習を視覚的意味制約で開始する視覚的表現アライメントステージと,詳細な臨床意味論を潜伏空間に注入するテキスト的意味表現アライメントステージという,新しい2段階のトレーニングフレームワークを導入する。
MedITokは、3000万以上の医療画像と200万のイメージキャプチャーペアを備えた、精巧に収集された大規模なデータセットに基づいて、9つの画像モダリティと4つの異なるタスクにわたる30以上のデータセットで最先端のパフォーマンスを達成している。
自己回帰モデリングのための統一トークン空間を提供することにより、MedITokは臨床診断および再生医療応用における幅広いタスクをサポートする。
モデルとコードは、https://github.com/Masaaki-75/meditok.comで公開される。
関連論文リスト
- An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training [40.16314726875265]
ConceptCLIPは、最先端の診断精度を達成する最初の説明可能なバイオメディカル基礎モデルである。
本研究では,グローバルな画像テキスト表現と細粒度領域概念関連を同時に学習する,新しいデュアルアライメントアプローチにより,概念CLIPを開発する。
論文 参考訳(メタデータ) (2025-01-26T16:07:11Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - CUTS: A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation [8.307551496968156]
医用画像セグメンテーションのための教師なしディープラーニングフレームワークCUTSを提案する。
各画像に対して、画像内コントラスト学習と局所パッチ再構成による埋め込みマップを生成する。
CUTSは、様々な粒度の特徴をハイライトする粗い粒度のセグメンテーションを連続的に生成する。
論文 参考訳(メタデータ) (2022-09-23T01:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。