論文の概要: MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.11625v1
- Date: Thu, 12 Mar 2026 07:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.949067
- Title: MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models
- Title(参考訳): MedPruner:視覚・言語モデルにおける3次元医用画像理解のための訓練不要階層型トーケンプルーニング
- Authors: Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan,
- Abstract要約: MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
- 参考スコア(独自算出の注目度): 59.180043227905294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While specialized Medical Vision-Language Models (VLMs) have achieved remarkable success in interpreting 2D and 3D medical modalities, their deployment for 3D volumetric data remains constrained by significant computational inefficiencies. Current architectures typically suffer from massive anatomical redundancy due to the direct concatenation of consecutive 2D slices and lack the flexibility to handle heterogeneous information densities across different slices using fixed pruning ratios. To address these challenges, we propose MedPruner, a training-free and model-agnostic hierarchical token pruning framework specifically designed for efficient 3D medical image understanding. MedPruner introduces a two-stage mechanism: an Inter-slice Anchor-based Filtering module to eliminate slice-level temporal redundancy, followed by a Dynamic Information Nucleus Selection strategy that achieves adaptive token-level compression by quantifying cumulative attention weights. Extensive experiments on three 3D medical benchmarks and across three diverse medical VLMs reveal massive token redundancy in existing architectures. Notably, MedPruner enables models such as MedGemma to maintain or even exceed their original performance while retaining fewer than 5% of visual tokens, thereby drastically reducing computational overhead and validating the necessity of dynamic token selection for practical clinical deployment. Our code will be released.
- Abstract(参考訳): 専門的な医用ビジョン・ランゲージモデル (VLM) は2次元および3次元の医用モダリティの解釈において顕著な成功を収めてきたが、その3次元のボリュームデータの展開は計算の非効率さによって制限されている。
現在のアーキテクチャは、連続した2Dスライスを直結させることによって、大きな解剖学的冗長性に悩まされ、固定プルーニング比を用いて異なるスライスの異種情報密度を扱う柔軟性が欠如している。
これらの課題に対処するため、我々は、3次元医用画像の効率的な理解に特化して設計されたトレーニングフリーでモデルに依存しない階層的トークンプルーニングフレームワークであるMedPrunerを提案する。
MedPruner氏は、スライスレベルの時間的冗長性を排除するためのインタースライスアンカーベースのフィルタリングモジュールと、累積的な注意重みを定量化して適応的なトークンレベルの圧縮を実現するDynamic Information Nucleus Selection戦略という、2段階のメカニズムを紹介した。
3つの3次元医用ベンチマークと3つの多様な医用VLMに対する大規模な実験は、既存のアーキテクチャにおいて大きなトークン冗長性を示している。
特に、MedPrunerは、MedGemmaのようなモデルで、ビジュアルトークンの5%未満を維持しながら、元のパフォーマンスを維持したり、超えたりすることを可能にし、計算オーバーヘッドを大幅に減らし、実用的な臨床展開に必要な動的トークン選択の必要性を検証する。
私たちのコードは解放されます。
関連論文リスト
- Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - Staged Voxel-Level Deep Reinforcement Learning for 3D Medical Image Segmentation with Noisy Annotations [4.581671524490035]
本稿では,ノイズの多いアノテーションの下での堅牢な医用画像分割のためのエンドツーエンドのVoxel-Level Deep Reinforcement Learningフレームワークを提案する。
このフレームワークは動的反復的な更新戦略を使用して,手作業による介入を必要とせずに,誤ったラベルの影響を自動的に緩和する。
論文 参考訳(メタデータ) (2026-01-07T12:39:54Z) - Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging [19.44554736205812]
BTB3D(Better Tokens for Better 3D)は2Dと3Dのトレーニングと推論を統一した因果畳み込みエンコーダである。
3段階の訓練カリキュラムでは、(i)局所的な再構築、(ii)オーバーラップウインドウタイリング、(iii)ロングコンテクストデコーダリファインメントが可能である。
BLEUスコアを向上し、CT2Rep、CT-CHAT、Merlinよりも臨床F1を40%向上させる。
GenerateCTやMedSynと比べて、FIDを75%削減し、FVDを半減する。
論文 参考訳(メタデータ) (2025-10-23T15:13:13Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D Medical Image Segmentation [34.865695471451886]
E2ENet(Efficient to Efficient Network)と呼ばれる3次元医用画像分割モデルを提案する。
パラメトリックと計算効率の2つの設計が組み込まれている。
さまざまなリソース制約に対して、正確性と効率性のトレードオフを一貫して達成します。
論文 参考訳(メタデータ) (2023-12-07T22:13:37Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。