Fugu-MT 論文翻訳(概要): Token Sparsification for Faster Medical Image Segmentation

論文の概要: Token Sparsification for Faster Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2303.06522v1
Date: Sat, 11 Mar 2023 23:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 18:33:03.955751
Title: Token Sparsification for Faster Medical Image Segmentation
Title（参考訳）: 高速な医用画像分割のためのToken Sparsification
Authors: Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras, Prateek Prasanna
Abstract要約: セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。 STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。 MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
参考スコア（独自算出の注目度）: 37.25161294917211
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can we use sparse tokens for dense prediction, e.g., segmentation? Although token sparsification has been applied to Vision Transformers (ViT) to accelerate classification, it is still unknown how to perform segmentation from sparse tokens. To this end, we reformulate segmentation as a sparse encoding -> token completion -> dense decoding (SCD) pipeline. We first empirically show that naively applying existing approaches from classification token pruning and masked image modeling (MIM) leads to failure and inefficient training caused by inappropriate sampling algorithms and the low quality of the restored dense features. In this paper, we propose Soft-topK Token Pruning (STP) and Multi-layer Token Assembly (MTA) to address these problems. In sparse encoding, STP predicts token importance scores with a lightweight sub-network and samples the topK tokens. The intractable topK gradients are approximated through a continuous perturbed score distribution. In token completion, MTA restores a full token sequence by assembling both sparse output tokens and pruned multi-layer intermediate ones. The last dense decoding stage is compatible with existing segmentation decoders, e.g., UNETR. Experiments show SCD pipelines equipped with STP and MTA are much faster than baselines without token pruning in both training (up to 120% higher throughput and inference up to 60.6% higher throughput) while maintaining segmentation quality.
Abstract（参考訳）: 密集予測にスパーストークン(例えばセグメンテーション)を使用できるか? トークンスパーシフィケーションは視覚トランスフォーマー(vit)に応用され分類を加速しているが、スパーストークンからのセグメンテーションの実行方法はまだ不明である。この目的のために、セグメント化をスパース符号化 ->トークン完了 -> 密度復号(SCD)パイプラインとして再構成する。まず,分類トークンの刈り取りとマスク画像モデリング(mim)による既存手法の適用が,不適切なサンプリングアルゴリズムによる失敗と非効率なトレーニング,および復元された高密度特徴の低品質化につながることを実証的に示す。本稿では,これらの問題に対処するため,Soft-topK Token Pruning (STP) と Multi-layer Token Assembly (MTA) を提案する。スパースエンコーディングでは、STPは軽量サブネットワークでトークンの重要度を予測し、トップKトークンをサンプリングする。難解なtopk勾配は連続摂動スコア分布を通じて近似される。トークン補完では、mtaはスパース出力トークンとpruned multi-layer intermediateトークンの両方を組み立てることで完全なトークンシーケンスを復元する。最後の高密度デコードステージは、既存のセグメンテーションデコーダ(例えばUNETR)と互換性がある。実験では、STPとMTAを備えたSCDパイプラインは、両方のトレーニングでトークンプルーニング(最大120%のスループットと最大60.6%のスループット)なしで、セグメンテーション品質を維持しながらベースラインよりもはるかに高速であることが示された。

関連論文リスト

Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文参考訳（メタデータ） (2025-06-07T00:51:27Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
Token Cropr: Faster ViTs for Quite a Few Tasks [12.97062850155708]
本稿では,タスク関連性に基づいてトークンをエンドツーエンドに選択する方法を学習する補助予測ヘッドを用いたトークンプルーナを提案する。画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションについて評価し,1.5～4倍の性能低下を示す。
論文参考訳（メタデータ） (2024-12-01T20:58:29Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文参考訳（メタデータ） (2024-07-19T16:11:15Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文参考訳（メタデータ） (2024-05-13T08:24:21Z)
AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文参考訳（メタデータ） (2023-11-02T12:48:43Z)
Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文参考訳（メタデータ） (2023-08-02T09:40:02Z)
Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文参考訳（メタデータ） (2023-06-12T11:55:33Z)
RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。 DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文参考訳（メタデータ） (2022-11-16T08:57:55Z)
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文参考訳（メタデータ） (2022-05-02T12:02:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。