Fugu-MT 論文翻訳(概要): Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation

論文の概要: Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation

arxiv url: http://arxiv.org/abs/2602.20008v1
Date: Mon, 23 Feb 2026 16:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.899684
Title: Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation
Title（参考訳）: Token-UNet:脳画像分割のための高効率かつ解釈可能な3次元ユニセットにおけるトランスフォーマー統合の新しい症例
Authors: Louis Fabrice Tshimanga, Andrea Zanola, Federico Del Pup, Manfredo Atzori,
Abstract要約: 我々はToken-UNetを紹介し、TokenLearnerモジュールとTokenFuserモジュールを採用して、TransformerをUNetsにカプセル化する。トランスフォーマーは医療画像の入力要素間のグローバルな相互作用を可能にするが、現在の計算課題は共通のハードウェアへの展開を妨げる。このトークン化はタスク関連情報を効果的に符号化し、自然に解釈可能なアテンションマップを生成する。
参考スコア（独自算出の注目度）: 0.04117494580521492
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Token-UNet, adopting the TokenLearner and TokenFuser modules to encase Transformers into UNets. While Transformers have enabled global interactions among input elements in medical imaging, current computational challenges hinder their deployment on common hardware. Models like (Swin)UNETR adapt the UNet architecture by incorporating (Swin)Transformer encoders, which process tokens that each represent small subvolumes ($8^3$ voxels) of the input. The Transformer attention mechanism scales quadratically with the number of tokens, which is tied to the cubic scaling of 3D input resolution. This work reconsiders the role of convolution and attention, introducing Token-UNets, a family of 3D segmentation models that can operate in constrained computational environments and time frames. To mitigate computational demands, our approach maintains the convolutional encoder of UNet-like models, and applies TokenLearner to 3D feature maps. This module pools a preset number of tokens from local and global structures. Our results show this tokenization effectively encodes task-relevant information, yielding naturally interpretable attention maps. The memory footprint, computation times at inference, and parameter counts of our heaviest model are reduced to 33\%, 10\%, and 35\% of the SwinUNETR values, with better average performance (86.75\% $\pm 0.19\%$ Dice score for SwinUNETR vs our 87.21\% $\pm 0.35\%$). This work opens the way to more efficient trainings in contexts with limited computational resources, such as 3D medical imaging. Easing model optimization, fine-tuning, and transfer-learning in limited hardware settings can accelerate and diversify the development of approaches, for the benefit of the research community.
Abstract（参考訳）: 我々はToken-UNetを紹介し、TokenLearnerモジュールとTokenFuserモジュールを採用して、TransformerをUNetsにカプセル化する。トランスフォーマーは医療画像における入力要素間のグローバルな相互作用を可能にする一方で、現在の計算課題は共通のハードウェアへの展開を妨げる。 Swin(UNETR)のようなモデルは(Swin)Transformerエンコーダを組み込むことでUNetアーキテクチャに適応する。トランスフォーマーのアテンション機構は3次元入力解像度の立方スケールと結びついているトークンの数で2次スケールする。この研究は、コンボリューションと注意の役割を再考し、制約された計算環境や時間枠で動作可能な3DセグメンテーションモデルのファミリーであるToken-UNetsを紹介した。計算要求を軽減するため,UNetのようなモデルの畳み込みエンコーダを維持し,TokenLearnerを3次元特徴写像に適用する。このモジュールは、ローカル構造とグローバル構造から予め設定されたトークン数をプールする。このトークン化はタスク関連情報を効果的に符号化し,自然に解釈可能なアテンションマップを生成する。メモリフットプリント、推論時の計算時間、パラメータ数は、SwinUNETRの値の33\%、10\%、35\%に削減され、平均性能は86.75\%、SwinUNETRは87.21\%、Diceスコアは87.35\%となる。この研究は、3D医療画像のような限られた計算資源を持つ文脈でのより効率的なトレーニングへの道を開く。限られたハードウェア設定でのモデル最適化、微調整、トランスファーラーニングの容易化は、研究コミュニティの利益のために、アプローチの開発を加速し、多様化させることができる。

関連論文リスト

How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need? [56.09721366421187]
トークンは極めて冗長であり、実質的な非効率性をもたらすことを示す。本稿では,最大90～95%のトークン数を削減できるグローバルなグラフトークンマージ手法であるgitmerge3Dを紹介する。この研究は、大規模な3Dトランスフォーマーモデルの冗長性を初めて評価し、より効率的な3D基盤アーキテクチャの開発に関する洞察を提供する。
論文参考訳（メタデータ） (2025-11-07T17:38:01Z)
H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文参考訳（メタデータ） (2025-09-08T17:59:59Z)
ENACT: Entropy-based Clustering of Attention Input for Reducing the Computational Needs of Object Detection Transformers [0.0]
トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。我々は,同じ物体画素間の類似性から,そのエントロピーに基づいて変換器入力をクラスタリングすることを提案する。これにより、適切な精度を維持しながら、トレーニング中のGPU使用量を減らすことが期待されている。
論文参考訳（メタデータ） (2024-09-11T18:03:59Z)
SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。 SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文参考訳（メタデータ） (2024-04-15T22:12:05Z)
EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースのアーキテクチャであるnameを提示する。 nameは、平面ベースのアテンションメカニズムを通じて3Dボリュームのローカルとグローバルのアテンションをバランスさせ、Hi-Resトークン化戦略とマージ操作を使用する。
論文参考訳（メタデータ） (2024-03-16T22:01:55Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文参考訳（メタデータ） (2022-07-31T21:39:15Z)
A Volumetric Transformer for Accurate 3D Tumor Segmentation [25.961484035609672]
本稿では,医療画像セグメンテーションのためのトランスフォーマーアーキテクチャを提案する。 TransformerはU字型のボリュームエンコーダデコーダ設計で、入力ボクセル全体を処理している。モデルがデータセット間でより良い表現を転送し、データの破損に対して堅牢であることを示します。
論文参考訳（メタデータ） (2021-11-26T02:49:51Z)
Token Shift Transformer for Video Classification [34.05954523287077]
トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
論文参考訳（メタデータ） (2021-08-05T08:04:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。