論文の概要: Shaken or Stirred? An Analysis of MetaFormer's Token Mixing for Medical Imaging
- arxiv url: http://arxiv.org/abs/2510.05971v2
- Date: Mon, 20 Oct 2025 11:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.622802
- Title: Shaken or Stirred? An Analysis of MetaFormer's Token Mixing for Medical Imaging
- Title(参考訳): シェイク・スターレッド : 医療画像用メタホルマーのトケミキシングの解析
- Authors: Ron Keuth, Paul Kaftan, Mattias P. Heinrich,
- Abstract要約: 医用画像用トークンミキサーの総合的研究について紹介する。
本評価は,医療領域における多彩なモダリティと共通の課題をカバーする8つのデータセットにまたがる。
セグメンテーションでは、畳み込みトークンミキサーの局所帰納バイアスが不可欠である。
- 参考スコア(独自算出の注目度): 2.8341356563869016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The generalization of the Transformer architecture via MetaFormer has reshaped our understanding of its success in computer vision. By replacing self-attention with simpler token mixers, MetaFormer provides strong baselines for vision tasks. However, while extensively studied on natural image datasets, its use in medical imaging remains scarce, and existing works rarely compare different token mixers, potentially overlooking more suitable designs choices. In this work, we present the first comprehensive study of token mixers for medical imaging. We systematically analyze pooling-, convolution-, and attention-based token mixers within the MetaFormer architecture on image classification (global prediction task) and semantic segmentation (dense prediction task). Our evaluation spans eight datasets covering diverse modalities and common challenges in the medical domain. Given the prevalence of pretraining from natural images to mitigate medical data scarcity, we also examine transferring pretrained weights to new token mixers. Our results show that, for classification, low-complexity token mixers (e.g. grouped convolution or pooling) are sufficient, aligning with findings on natural images. Pretrained weights remain useful despite the domain gap introduced by the new token mixer. For segmentation, we find that the local inductive bias of convolutional token mixers is essential. Grouped convolutions emerge as the preferred choice, as they reduce runtime and parameter count compared to standard convolutions, while the MetaFormer's channel-MLPs already provide the necessary cross-channel interactions.
- Abstract(参考訳): MetaFormerによるTransformerアーキテクチャの一般化は、コンピュータビジョンにおけるその成功に対する私たちの理解を変えました。
自己注意をシンプルなトークンミキサーに置き換えることで、MetaFormerはビジョンタスクに強力なベースラインを提供する。
しかし、自然画像のデータセットについて広く研究されているが、医用画像の使用は依然として少なく、既存の研究は異なるトークンミキサーを比較することはめったになく、より適切なデザインの選択を見落としている可能性がある。
本研究は,医用画像用トークンミキサーの総合的研究である。
画像分類(グローバル予測タスク)とセマンティックセグメンテーション(深度予測タスク)に基づいて,MetaFormerアーキテクチャ内のプール,コンボリューション,アテンションに基づくトークンミキサを系統的に解析する。
本評価は,医療領域における多彩なモダリティと共通の課題をカバーする8つのデータセットにまたがる。
医療データ不足を軽減するため, 自然画像からの事前トレーニングの頻度を考慮し, トレーニング済み重量を新しいトークンミキサーに転送することも検討した。
以上の結果から,低複雑性トークンミキサー(例えば,グループ化畳み込みやプール化)は,自然画像の発見と整合して十分であることが示唆された。
新しいトークンミキサーによって導入されたドメインギャップにもかかわらず、事前制限された重量は有用である。
セグメンテーションでは、畳み込みトークンミキサーの局所帰納バイアスが不可欠である。
グループ化された畳み込みは、標準の畳み込みに比べてランタイムとパラメータの数を減らし、MetaFormerのチャネル-MLPは、既に必要なチャネル間相互作用を提供している。
関連論文リスト
- Diffusion-Guided Mask-Consistent Paired Mixing for Endoscopic Image Segmentation [57.37991748282666]
本稿では, 試料混合と拡散合成の強度を融合した拡散誘導型パラダイムを提案する。
各実画像について、合成対を同じマスクの下で生成し、その対をマスク一貫性ペアドミキシング(MCPMix)の制御可能な入力として使用する。
これは、共有幾何学の下で合成および実際の外観を円滑にブリッジする中間サンプルの連続的な族を生成する。
論文 参考訳(メタデータ) (2025-11-05T06:14:19Z) - SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training [25.763109982379703]
胸部CTにおける類似性駆動型クロスグラニュラリティ事前学習フレームワークを提案する。
類似性駆動アライメントとクロスグラニュラリティ融合を組み合わせて、ラジオグラフィーの解釈を改善する。
SimCroPは、大規模なペアCTレポートデータセットで事前トレーニングされ、画像分類とセグメンテーションタスクで検証される。
論文 参考訳(メタデータ) (2025-09-10T06:20:53Z) - Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation [2.273629240935727]
画像の要素を組み合わせることで相関シフトを改善するために,分解分解(DaC)を提案する。
経験的リスク最小化(Empirical Risk Minimization, ERM)で訓練されたモデルでは, 通常, 因果成分, あるいはラベルとの急激な相関性が高い成分のいずれかに高い関与が認められた。
トレーニング中に,グループラベルやスプリアスの特徴に関する情報を必要とせず,画像に介入してグループバランスを行う手法を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:24:24Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - MetaFormer Baselines for Vision [166.01609889532747]
私たちはMetaFormerのベースラインモデルをいくつか導入し、最も基本的なミキサーや一般的なミキサーを使用します。
MetaFormerはパフォーマンスのしっかりとした低いバウンダリを保証します。
また,新たなアクティベーションであるStarReLUは,GELUと比較してFLOPを減少させるが,性能は向上する。
論文 参考訳(メタデータ) (2022-10-24T17:59:57Z) - MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust
Classifier [37.774220727662914]
単一画像の操作を制御できるワンショットマスク誘導画像合成法を提案する。
提案手法は,事前学習した準ロバスト分類器から構造勾配を利用する。
MAGICは入力上の勾配を集約し、ガイドバイナリマスクによって駆動される。
論文 参考訳(メタデータ) (2022-09-23T12:15:40Z) - TokenMix: Rethinking Image Mixing for Data Augmentation in Vision
Transformers [36.630476419392046]
CutMixは、現代の畳み込みとトランスフォーマービジョンネットワークのトレーニングによく使われる、一般的な拡張テクニックである。
本稿では,視覚変換器の性能向上のために,新しいデータ拡張手法であるTokenMixを提案する。
論文 参考訳(メタデータ) (2022-07-18T07:08:29Z) - CropMix: Sampling a Rich Input Distribution via Multi-Scale Cropping [97.05377757299672]
そこで本研究では,元のデータセット分布からリッチな入力分布を生成するための簡単なCropMixを提案する。
CropMixは、分類タスクを実行するトレーニングレシピやニューラルネットワークアーキテクチャにシームレスに適用することができる。
CropMixは、より強力な表現に向けて、対照的な学習とマスクされた画像モデリングの両方に利益があることを示す。
論文 参考訳(メタデータ) (2022-05-31T16:57:28Z) - Self Pre-training with Masked Autoencoders for Medical Image
Classification and Segmentation [37.25161294917211]
Masked Autoencoder (MAE) は自然画像解析のための事前学習型視覚変換器 (ViT) に有効であることが示されている。
医用画像解析タスクにおけるMAEを用いた自己事前学習パラダイムについて検討する。
論文 参考訳(メタデータ) (2022-03-10T16:22:38Z) - Going to Extremes: Weakly Supervised Medical Image Segmentation [12.700841704699615]
セグメンテーションモデルをトレーニングするために、極端点クリックという形で最小限のユーザインタラクションを使うことを提案する。
ランダムウォーカアルゴリズムを利用した極端点に基づいて初期セグメンテーションを生成する。
この初期セグメンテーションは、完全な畳み込みネットワークを訓練するためにノイズの多い監視信号として使用される。
論文 参考訳(メタデータ) (2020-09-25T00:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。