論文の概要: Token Sparsification for Faster Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.06522v1
- Date: Sat, 11 Mar 2023 23:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:33:03.955751
- Title: Token Sparsification for Faster Medical Image Segmentation
- Title(参考訳): 高速な医用画像分割のためのToken Sparsification
- Authors: Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras,
Prateek Prasanna
- Abstract要約: セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
- 参考スコア(独自算出の注目度): 37.25161294917211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we use sparse tokens for dense prediction, e.g., segmentation? Although
token sparsification has been applied to Vision Transformers (ViT) to
accelerate classification, it is still unknown how to perform segmentation from
sparse tokens. To this end, we reformulate segmentation as a sparse encoding ->
token completion -> dense decoding (SCD) pipeline. We first empirically show
that naively applying existing approaches from classification token pruning and
masked image modeling (MIM) leads to failure and inefficient training caused by
inappropriate sampling algorithms and the low quality of the restored dense
features. In this paper, we propose Soft-topK Token Pruning (STP) and
Multi-layer Token Assembly (MTA) to address these problems. In sparse encoding,
STP predicts token importance scores with a lightweight sub-network and samples
the topK tokens. The intractable topK gradients are approximated through a
continuous perturbed score distribution. In token completion, MTA restores a
full token sequence by assembling both sparse output tokens and pruned
multi-layer intermediate ones. The last dense decoding stage is compatible with
existing segmentation decoders, e.g., UNETR. Experiments show SCD pipelines
equipped with STP and MTA are much faster than baselines without token pruning
in both training (up to 120% higher throughput and inference up to 60.6% higher
throughput) while maintaining segmentation quality.
- Abstract(参考訳): 密集予測にスパーストークン(例えばセグメンテーション)を使用できるか?
トークンスパーシフィケーションは視覚トランスフォーマー(vit)に応用され分類を加速しているが、スパーストークンからのセグメンテーションの実行方法はまだ不明である。
この目的のために、セグメント化をスパース符号化 ->トークン完了 -> 密度復号(SCD)パイプラインとして再構成する。
まず,分類トークンの刈り取りとマスク画像モデリング(mim)による既存手法の適用が,不適切なサンプリングアルゴリズムによる失敗と非効率なトレーニング,および復元された高密度特徴の低品質化につながることを実証的に示す。
本稿では,これらの問題に対処するため,Soft-topK Token Pruning (STP) と Multi-layer Token Assembly (MTA) を提案する。
スパースエンコーディングでは、STPは軽量サブネットワークでトークンの重要度を予測し、トップKトークンをサンプリングする。
難解なtopk勾配は連続摂動スコア分布を通じて近似される。
トークン補完では、mtaはスパース出力トークンとpruned multi-layer intermediateトークンの両方を組み立てることで完全なトークンシーケンスを復元する。
最後の高密度デコードステージは、既存のセグメンテーションデコーダ(例えばUNETR)と互換性がある。
実験では、STPとMTAを備えたSCDパイプラインは、両方のトレーニングでトークンプルーニング(最大120%のスループットと最大60.6%のスループット)なしで、セグメンテーション品質を維持しながらベースラインよりもはるかに高速であることが示された。
関連論文リスト
- Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文 参考訳(メタデータ) (2023-08-02T09:40:02Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。