論文の概要: Shaken or Stirred? An Analysis of MetaFormer's Token Mixing for Medical Imaging
- arxiv url: http://arxiv.org/abs/2510.05971v1
- Date: Tue, 07 Oct 2025 14:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.287287
- Title: Shaken or Stirred? An Analysis of MetaFormer's Token Mixing for Medical Imaging
- Title(参考訳): シェイク・スターレッド : 医療画像用メタホルマーのトケミキシングの解析
- Authors: Ron Keuth, Paul Kaftan, Mattias P. Heinrich,
- Abstract要約: 医用画像用トークンミキサーの総合的研究について紹介する。
本評価は,医療領域における多彩なモダリティと共通の課題をカバーする8つのデータセットにまたがる。
セグメンテーションでは、畳み込みトークンミキサーの局所帰納バイアスが不可欠である。
- 参考スコア(独自算出の注目度): 2.8341356563869016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The generalization of the Transformer architecture via MetaFormer has reshaped our understanding of its success in computer vision. By replacing self-attention with simpler token mixers, MetaFormer provides strong baselines for vision tasks. However, while extensively studied on natural image datasets, its use in medical imaging remains scarce, and existing works rarely compare different token mixers, potentially overlooking more suitable designs choices. In this work, we present the first comprehensive study of token mixers for medical imaging. We systematically analyze pooling-, convolution-, and attention-based token mixers within the MetaFormer architecture on image classification (global prediction task) and semantic segmentation (dense prediction task). Our evaluation spans eight datasets covering diverse modalities and common challenges in the medical domain. Given the prevalence of pretraining from natural images to mitigate medical data scarcity, we also examine transferring pretrained weights to new token mixers. Our results show that, for classification, low-complexity token mixers (e.g. grouped convolution or pooling) are sufficient, aligning with findings on natural images. Pretrained weights remain useful despite the domain gap introduced by the new token mixer. For segmentation, we find that the local inductive bias of convolutional token mixers is essential. Grouped convolutions emerge as the preferred choice, as they reduce runtime and parameter count compared to standard convolutions, while the MetaFormer's channel-MLPs already provide the necessary cross-channel interactions. Our code is available on GitHub.
- Abstract(参考訳): MetaFormerによるTransformerアーキテクチャの一般化は、コンピュータビジョンにおけるその成功に対する私たちの理解を変えました。
自己注意をシンプルなトークンミキサーに置き換えることで、MetaFormerはビジョンタスクに強力なベースラインを提供する。
しかし、自然画像のデータセットについて広く研究されているが、医用画像の使用は依然として少なく、既存の研究は異なるトークンミキサーを比較することはめったになく、より適切なデザインの選択を見落としている可能性がある。
本研究は,医用画像用トークンミキサーの総合的研究である。
画像分類(グローバル予測タスク)とセマンティックセグメンテーション(深度予測タスク)に基づいて,MetaFormerアーキテクチャ内のプール,コンボリューション,アテンションに基づくトークンミキサを系統的に解析する。
本評価は,医療領域における多彩なモダリティと共通の課題をカバーする8つのデータセットにまたがる。
医療データ不足を軽減するため, 自然画像からの事前トレーニングの頻度を考慮し, トレーニング済み重量を新しいトークンミキサーに転送することも検討した。
以上の結果から,低複雑性トークンミキサー(例えば,グループ化畳み込みやプール化)は,自然画像の発見と整合して十分であることが示唆された。
新しいトークンミキサーによって導入されたドメインギャップにもかかわらず、事前制限された重量は有用である。
セグメンテーションでは、畳み込みトークンミキサーの局所帰納バイアスが不可欠である。
グループ化された畳み込みは、標準の畳み込みに比べてランタイムとパラメータの数を減らし、MetaFormerのチャネル-MLPは、既に必要なチャネル間相互作用を提供している。
私たちのコードはGitHubで入手可能です。
関連論文リスト
- Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - MetaFormer Baselines for Vision [166.01609889532747]
私たちはMetaFormerのベースラインモデルをいくつか導入し、最も基本的なミキサーや一般的なミキサーを使用します。
MetaFormerはパフォーマンスのしっかりとした低いバウンダリを保証します。
また,新たなアクティベーションであるStarReLUは,GELUと比較してFLOPを減少させるが,性能は向上する。
論文 参考訳(メタデータ) (2022-10-24T17:59:57Z) - MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust
Classifier [37.774220727662914]
単一画像の操作を制御できるワンショットマスク誘導画像合成法を提案する。
提案手法は,事前学習した準ロバスト分類器から構造勾配を利用する。
MAGICは入力上の勾配を集約し、ガイドバイナリマスクによって駆動される。
論文 参考訳(メタデータ) (2022-09-23T12:15:40Z) - TokenMix: Rethinking Image Mixing for Data Augmentation in Vision
Transformers [36.630476419392046]
CutMixは、現代の畳み込みとトランスフォーマービジョンネットワークのトレーニングによく使われる、一般的な拡張テクニックである。
本稿では,視覚変換器の性能向上のために,新しいデータ拡張手法であるTokenMixを提案する。
論文 参考訳(メタデータ) (2022-07-18T07:08:29Z) - CropMix: Sampling a Rich Input Distribution via Multi-Scale Cropping [97.05377757299672]
そこで本研究では,元のデータセット分布からリッチな入力分布を生成するための簡単なCropMixを提案する。
CropMixは、分類タスクを実行するトレーニングレシピやニューラルネットワークアーキテクチャにシームレスに適用することができる。
CropMixは、より強力な表現に向けて、対照的な学習とマスクされた画像モデリングの両方に利益があることを示す。
論文 参考訳(メタデータ) (2022-05-31T16:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。