論文の概要: Token Sparsification for Faster Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.06522v1
- Date: Sat, 11 Mar 2023 23:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:33:03.955751
- Title: Token Sparsification for Faster Medical Image Segmentation
- Title(参考訳): 高速な医用画像分割のためのToken Sparsification
- Authors: Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras,
Prateek Prasanna
- Abstract要約: セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
- 参考スコア(独自算出の注目度): 37.25161294917211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we use sparse tokens for dense prediction, e.g., segmentation? Although
token sparsification has been applied to Vision Transformers (ViT) to
accelerate classification, it is still unknown how to perform segmentation from
sparse tokens. To this end, we reformulate segmentation as a sparse encoding ->
token completion -> dense decoding (SCD) pipeline. We first empirically show
that naively applying existing approaches from classification token pruning and
masked image modeling (MIM) leads to failure and inefficient training caused by
inappropriate sampling algorithms and the low quality of the restored dense
features. In this paper, we propose Soft-topK Token Pruning (STP) and
Multi-layer Token Assembly (MTA) to address these problems. In sparse encoding,
STP predicts token importance scores with a lightweight sub-network and samples
the topK tokens. The intractable topK gradients are approximated through a
continuous perturbed score distribution. In token completion, MTA restores a
full token sequence by assembling both sparse output tokens and pruned
multi-layer intermediate ones. The last dense decoding stage is compatible with
existing segmentation decoders, e.g., UNETR. Experiments show SCD pipelines
equipped with STP and MTA are much faster than baselines without token pruning
in both training (up to 120% higher throughput and inference up to 60.6% higher
throughput) while maintaining segmentation quality.
- Abstract(参考訳): 密集予測にスパーストークン(例えばセグメンテーション)を使用できるか?
トークンスパーシフィケーションは視覚トランスフォーマー(vit)に応用され分類を加速しているが、スパーストークンからのセグメンテーションの実行方法はまだ不明である。
この目的のために、セグメント化をスパース符号化 ->トークン完了 -> 密度復号(SCD)パイプラインとして再構成する。
まず,分類トークンの刈り取りとマスク画像モデリング(mim)による既存手法の適用が,不適切なサンプリングアルゴリズムによる失敗と非効率なトレーニング,および復元された高密度特徴の低品質化につながることを実証的に示す。
本稿では,これらの問題に対処するため,Soft-topK Token Pruning (STP) と Multi-layer Token Assembly (MTA) を提案する。
スパースエンコーディングでは、STPは軽量サブネットワークでトークンの重要度を予測し、トップKトークンをサンプリングする。
難解なtopk勾配は連続摂動スコア分布を通じて近似される。
トークン補完では、mtaはスパース出力トークンとpruned multi-layer intermediateトークンの両方を組み立てることで完全なトークンシーケンスを復元する。
最後の高密度デコードステージは、既存のセグメンテーションデコーダ(例えばUNETR)と互換性がある。
実験では、STPとMTAを備えたSCDパイプラインは、両方のトレーニングでトークンプルーニング(最大120%のスループットと最大60.6%のスループット)なしで、セグメンテーション品質を維持しながらベースラインよりもはるかに高速であることが示された。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文 参考訳(メタデータ) (2023-08-02T09:40:02Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。