論文の概要: Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging
- arxiv url: http://arxiv.org/abs/2510.20639v1
- Date: Thu, 23 Oct 2025 15:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.232927
- Title: Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging
- Title(参考訳): 3次元医用画像におけるビジョン・ランゲージ・モデリングの改善
- Authors: Ibrahim Ethem Hamamci, Sezgin Er, Suprosanna Shit, Hadrien Reynaud, Dong Yang, Pengfei Guo, Marc Edgar, Daguang Xu, Bernhard Kainz, Bjoern Menze,
- Abstract要約: BTB3D(Better Tokens for Better 3D)は2Dと3Dのトレーニングと推論を統一した因果畳み込みエンコーダである。
3段階の訓練カリキュラムでは、(i)局所的な再構築、(ii)オーバーラップウインドウタイリング、(iii)ロングコンテクストデコーダリファインメントが可能である。
BLEUスコアを向上し、CT2Rep、CT-CHAT、Merlinよりも臨床F1を40%向上させる。
GenerateCTやMedSynと比べて、FIDを75%削減し、FVDを半減する。
- 参考スコア(独自算出の注目度): 19.44554736205812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in vision-language modeling for 3D medical imaging has been fueled by large-scale computed tomography (CT) corpora with paired free-text reports, stronger architectures, and powerful pretrained models. This has enabled applications such as automated report generation and text-conditioned 3D image synthesis. Yet, current approaches struggle with high-resolution, long-sequence volumes: contrastive pretraining often yields vision encoders that are misaligned with clinical language, and slice-wise tokenization blurs fine anatomy, reducing diagnostic performance on downstream tasks. We introduce BTB3D (Better Tokens for Better 3D), a causal convolutional encoder-decoder that unifies 2D and 3D training and inference while producing compact, frequency-aware volumetric tokens. A three-stage training curriculum enables (i) local reconstruction, (ii) overlapping-window tiling, and (iii) long-context decoder refinement, during which the model learns from short slice excerpts yet generalizes to scans exceeding 300 slices without additional memory overhead. BTB3D sets a new state-of-the-art on two key tasks: it improves BLEU scores and increases clinical F1 by 40% over CT2Rep, CT-CHAT, and Merlin for report generation; and it reduces FID by 75% and halves FVD compared to GenerateCT and MedSyn for text-to-CT synthesis, producing anatomically consistent 512*512*241 volumes. These results confirm that precise three-dimensional tokenization, rather than larger language backbones alone, is essential for scalable vision-language modeling in 3D medical imaging. The codebase is available at: https://github.com/ibrahimethemhamamci/BTB3D
- Abstract(参考訳): 3次元医用画像のための視覚言語モデリングの最近の進歩は、ペア化された自由テキストレポート、より強力なアーキテクチャ、強力な事前訓練モデルを備えた大規模CTコーパスによって加速されている。
これにより、自動レポート生成やテキスト条件の3D画像合成といった応用が可能になった。
対照的な事前訓練では、しばしば臨床言語と不一致の視覚エンコーダが得られ、スライスワイドトークン化は微細な解剖学を曖昧にし、下流タスクの診断性能を低下させる。
BTB3D(Better Tokens for Better 3D)は2Dと3Dのトレーニングと推論を統一する因果畳み込みエンコーダである。
3段階の研修カリキュラムが利用可能になる
(i)地方再建
(二)オーバーラップウインドウタイリング、及び
三 長文デコーダの改良で、短いスライス抽出から学習するが、メモリオーバーヘッドを伴わずに300スライスを超えるスキャンに一般化する。
BTB3Dは、BLEUスコアを改善し、CT2Rep、CT-CHAT、Merlinよりも臨床F1を40%向上させ、FIDを75%削減し、テキスト合成のためにGenerateCTとMedSynと比較してFVDを75%削減し、解剖学的に一貫性のある512*512*241巻を生成する。
これらの結果から,3次元医用画像のスケーラブルな視覚言語モデリングには,より大きな言語バックボーンのみではなく,正確な3次元トークン化が不可欠であることが確認された。
コードベースは以下の通りである。 https://github.com/ibrahimethemhamamci/BTB3D
関連論文リスト
- Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models [5.020980730631682]
既存の3D医療畳み込みとトランスフォーマーベースの自己教師付き学習(SSL)手法は、しばしば深い意味理解を欠いている。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、テキスト記述による画像理解を強化するための有望なアプローチを提供する。
Med3DInsightは、3D画像エンコーダと2D MLLMを特別に設計された平面スライス対応トランスモジュールを介して統合する新しい事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-11T00:12:59Z) - Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [1.447808799346751]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-31T16:41:55Z) - Explaining 3D Computed Tomography Classifiers with Counterfactuals [5.782952470371709]
本研究では,Latent Shift反ファクト生成法を2次元アプリケーションから拡張し,CTスキャンを解説する。
スライスベースのオートエンコーダと勾配ブロッキングを実装した。
本手法は,高分解能3次元医用画像における解釈可能な偽物の生成に有効である。
論文 参考訳(メタデータ) (2025-02-11T00:44:20Z) - DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions [6.464464511743737]
我々は,3次元畳み込みを深さ,高さ,幅の3つの平行1次元畳み込みに分解する,効率的な3次元画像エンコーダDCFormerを紹介する。
ゼロショットと微調整による18の病理診断では、DCFormerは最先端の3Dビジョンエンコーダよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-07T17:10:22Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。