論文の概要: DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions
- arxiv url: http://arxiv.org/abs/2502.05091v2
- Date: Fri, 25 Apr 2025 16:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 18:47:07.426876
- Title: DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions
- Title(参考訳): DCFormer: 分割畳み込みによる効率的な3Dビジョンランゲージモデリング
- Authors: Gorkem Can Ates, Yu Xin, Kuang Gong, Wei Shao,
- Abstract要約: 我々は,3次元畳み込みを深さ,高さ,幅の3つの平行1次元畳み込みに分解する,効率的な3次元画像エンコーダDCFormerを紹介する。
ゼロショットと微調整による18の病理診断では、DCFormerは最先端の3Dビジョンエンコーダよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 6.464464511743737
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have been widely applied to 2D medical image analysis due to their ability to align visual and textual representations. However, extending VLMs to 3D imaging remains computationally challenging. Existing 3D VLMs often rely on Vision Transformers (ViTs), which are computationally expensive due to the quadratic complexity of self-attention, or on 3D convolutions, which require large numbers of parameters and FLOPs as kernel size increases. We introduce DCFormer, an efficient 3D image encoder that factorizes 3D convolutions into three parallel 1D convolutions along the depth, height, and width dimensions. This design preserves spatial information while significantly reducing computational cost. Integrated into a CLIP-based vision-language framework, DCFormer is trained and evaluated on CT-RATE, a dataset of 50,188 paired 3D chest CT volumes and radiology reports. In zero-shot and fine-tuned detection of 18 pathologies, as well as in image-text retrieval tasks, DCFormer consistently outperforms state-of-the-art 3D vision encoders, including CT-ViT, ViT, ConvNeXt, PoolFormer, and TransUNet. These results highlight DCFormer's potential for scalable, clinically deployable 3D medical VLMs. Our code is available at: https://github.com/mirthAI/DCFormer.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的およびテキスト的表現の整合性から、2次元の医用画像解析に広く応用されている。
しかし、VLMを3D画像に拡張することは計算的に困難である。
既存の3D VLMはビジョントランスフォーマー(ViT)に頼っていることが多いが、これは自己アテンションの二次的な複雑さや、カーネルサイズが大きくなるにつれて大量のパラメータやFLOPを必要とする3D畳み込みによる計算コストが高い。
我々は,3次元畳み込みを深さ,高さ,幅の3つの平行1次元畳み込みに分解する,効率的な3次元画像エンコーダDCFormerを紹介する。
この設計は空間情報を保存し、計算コストを大幅に削減する。
CLIPベースの視覚言語フレームワークに統合されたDCFormerは、50,188対の3D胸部CTボリュームと放射線診断レポートのデータセットであるCT-RATEをトレーニングし、評価する。
CT-ViT、ViT、ConvNeXt、PoolFormer、TransUNetなどの最先端の3Dビジョンエンコーダを一貫して上回っている。
これらの結果は、スケーラブルで臨床的にデプロイ可能な3D医療用VLMに対するDCFormerの可能性を浮き彫りにしている。
私たちのコードは、https://github.com/mirthAI/DCFormer.comで利用可能です。
関連論文リスト
- Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-02T16:59:55Z) - HResFormer: Hybrid Residual Transformer for Volumetric Medical Image Segmentation [17.735791373128986]
ビジョントランスフォーマーは、長距離依存を学習する能力により、医用画像セグメンテーションにおいて大きな優位性を示す。
医用画像分割のための新しいtextbfHybrid textbfResidual transtextbfFormer textbf(HResFormer)を提案する。
論文 参考訳(メタデータ) (2024-12-16T05:32:28Z) - Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。
本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文 参考訳(メタデータ) (2024-11-02T13:03:44Z) - E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Cross-Dimensional Medical Self-Supervised Representation Learning Based on a Pseudo-3D Transformation [68.60747298865394]
擬似3D変換(CDSSL-P3D)に基づく新しい三次元SSLフレームワークを提案する。
具体的には、2D画像を3Dデータに整合したフォーマットに変換するim2colアルゴリズムに基づく画像変換を提案する。
この変換は2次元および3次元データのシームレスな統合を可能にし、3次元医用画像解析のための相互教師あり学習を容易にする。
論文 参考訳(メタデータ) (2024-06-03T02:57:25Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models [1.64647940449869]
既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
論文 参考訳(メタデータ) (2024-03-08T08:15:53Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。