論文の概要: Compute-Efficient Medical Image Classification with Softmax-Free Transformers and Sequence Normalization
- arxiv url: http://arxiv.org/abs/2406.01314v1
- Date: Mon, 3 Jun 2024 13:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:59:31.735823
- Title: Compute-Efficient Medical Image Classification with Softmax-Free Transformers and Sequence Normalization
- Title(参考訳): ソフトマックスフリー変圧器を用いた医用画像分類とシーケンス正規化
- Authors: Firas Khader, Omar S. M. El Nahhas, Tianyu Han, Gustav Müller-Franzes, Sven Nebelung, Jakob Nikolas Kather, Daniel Truhn,
- Abstract要約: Transformerモデルは、自然言語処理、音声認識、コンピュータビジョンなどの進歩する分野において重要な役割を担っている。
このモデルの重要な制限は、シーケンス長に対して2次計算とメモリの複雑さである。
これは、高解像度画像がギガピクセルスケールに達する医療画像において特に重要である。
- 参考スコア(独自算出の注目度): 1.6275928583134276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer model has been pivotal in advancing fields such as natural language processing, speech recognition, and computer vision. However, a critical limitation of this model is its quadratic computational and memory complexity relative to the sequence length, which constrains its application to longer sequences. This is especially crucial in medical imaging where high-resolution images can reach gigapixel scale. Efforts to address this issue have predominantely focused on complex techniques, such as decomposing the softmax operation integral to the Transformer's architecture. This paper addresses this quadratic computational complexity of Transformer models and introduces a remarkably simple and effective method that circumvents this issue by eliminating the softmax function from the attention mechanism and adopting a sequence normalization technique for the key, query, and value tokens. Coupled with a reordering of matrix multiplications this approach reduces the memory- and compute complexity to a linear scale. We evaluate this approach across various medical imaging datasets comprising fundoscopic, dermascopic, radiologic and histologic imaging data. Our findings highlight that these models exhibit a comparable performance to traditional transformer models, while efficiently handling longer sequences.
- Abstract(参考訳): Transformerモデルは、自然言語処理、音声認識、コンピュータビジョンなどの進歩する分野において重要な役割を担っている。
しかし、このモデルの重要な制限は、その2次計算とメモリの複雑さであり、より長いシーケンスにその適用を制限している。
これは、高解像度画像がギガピクセルスケールに達する医療画像において特に重要である。
この問題に対処する努力は、トランスフォーマーのアーキテクチャに不可欠なソフトマックス操作を分解するといった複雑な技術に主に焦点を当てている。
本稿では、トランスフォーマーモデルのこの2次計算複雑性に対処し、注意機構からソフトマックス関数を排除し、キー、クエリ、バリュートークンのシーケンス正規化手法を採用することにより、この問題を回避する、驚くほど単純かつ効果的な方法を提案する。
行列乗法の再順序付けと組み合わせて、このアプローチはメモリと計算の複雑さを線形スケールに減らす。
本手法は, 眼底鏡, 皮膚鏡, 放射線画像, 組織画像データを含む様々な医用画像データセットにまたがって評価される。
以上の結果から,従来のトランスモデルと同等の性能を示しながら,より長いシーケンスを効率的に処理できることが示唆された。
関連論文リスト
- Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - Optimization of array encoding for ultrasound imaging [2.357055571094446]
機械学習(ML)を用いて、時間遅延とアポッド化重みによってパラメータ化されたスキャンシーケンスを構築し、高品質なBモード画像を生成する。
これらの結果は,ワイヤターゲットと組織模倣ファントムの両方で実験的に実証された。
論文 参考訳(メタデータ) (2024-03-01T05:19:59Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer
for Missing Data Imputation [3.9207133968068684]
我々は、シーケンス・ツー・シーケンス学習問題として、欠落データ計算を定式化する。
マルチコントラストマルチスケールトランス (MMT) を提案する。
MMTは、異なる領域における各入力コントラストの重要性を理解することができるため、本質的に解釈可能である。
論文 参考訳(メタデータ) (2022-04-28T18:49:27Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。