論文の概要: Prompt-based Dynamic Token Pruning to Guide Transformer Attention in Efficient Segmentation
- arxiv url: http://arxiv.org/abs/2506.16369v1
- Date: Thu, 19 Jun 2025 14:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.119611
- Title: Prompt-based Dynamic Token Pruning to Guide Transformer Attention in Efficient Segmentation
- Title(参考訳): 高速セグメンテーションにおけるガイド変圧器注意のためのプロンプト型動的トケプルーニング
- Authors: Pallabi Dutta, Anubhab Maity, Sushmita Mitra,
- Abstract要約: 本研究では,セグメンテーションパイプラインにおける無関係トークンの処理を選択的に削減する適応的プロンプト誘導プルーニング法を提案する。
実験の結果,35-55%のトークンを$sim$で還元し,ベースラインに対する計算コストを低減した。
- 参考スコア(独自算出の注目度): 0.06554326244334867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high computational demands of Vision Transformers (ViTs), in processing a huge number of tokens, often constrain their practical application in analyzing medical images. This research proposes an adaptive prompt-guided pruning method to selectively reduce the processing of irrelevant tokens in the segmentation pipeline. The prompt-based spatial prior helps to rank the tokens according to their relevance. Tokens with low-relevance scores are down-weighted, ensuring that only the relevant ones are propagated for processing across subsequent stages. This data-driven pruning strategy facilitates end-to-end training, maintains gradient flow, and improves segmentation accuracy by focusing computational resources on essential regions. The proposed framework is integrated with several state-of-the-art models to facilitate the elimination of irrelevant tokens; thereby, enhancing computational efficiency while preserving segmentation accuracy. The experimental results show a reduction of $\sim$ 35-55\% tokens; thus reducing the computational costs relative to the baselines. Cost-effective medical image processing, using our framework, facilitates real-time diagnosis by expanding its applicability in resource-constrained environments.
- Abstract(参考訳): 膨大な数のトークンを処理するビジョントランスフォーマー(ViT)の高度な計算要求は、しばしば医療画像解析における実践的応用を制限している。
本研究では,セグメンテーションパイプラインにおける無関係トークンの処理を選択的に削減する適応的プロンプト誘導プルーニング法を提案する。
プロンプトベースの空間事前は、トークンの関連性に応じてランク付けするのに役立つ。
低関連スコアのトークンは低重み付けされ、関連するものだけがその後の段階にわたって処理するために伝播される。
このデータ駆動型プルーニング戦略は、エンドツーエンドのトレーニングを容易にし、勾配流を維持し、重要な領域に計算資源を集中させることでセグメンテーションの精度を向上させる。
提案フレームワークは,無関係なトークンの除去を容易にするために,いくつかの最先端モデルと統合され,セグメント化精度を維持しながら計算効率を向上する。
実験の結果,$\sim$ 35-55\%トークンが減少し,ベースラインに対する計算コストが削減された。
費用対効果の高い医用画像処理は,我々のフレームワークを用いて,資源制約環境における適用範囲を拡大し,リアルタイムな診断を容易にする。
関連論文リスト
- Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning [8.284127681482202]
LVTPは、マルチスケールのTsallisエントロピーと2倍のクラスタリングを備えた低レベル視覚特徴によってガイドされるプログレッシブトークンプルーニングフレームワークである。
高レベルのセマンティクスと、正確なセグメンテーションのための基本的な視覚属性を統合している。
プラグアンドプレイモジュールとして、アーキテクチャの変更や追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2025-04-25T00:43:20Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation [12.249546377051438]
トークンマージは、画像分類タスクにおける推論速度、トレーニング効率、メモリ利用の大幅な向上を示した。
本稿では,資源制約のあるデバイスやリアルタイムアプリケーションへのトランスフォーマーアーキテクチャの展開を容易にする。
論文 参考訳(メタデータ) (2024-05-23T11:54:27Z) - PAM-UNet: Shifting Attention on Region of Interest in Medical Images [5.730272874074418]
UNetとその変種は、精度と計算効率のバランスをとるという重要な課題に直面している。
本稿では,UnderlineMobile underlineUNetアーキテクチャに基づく新しいアンダーラインプログレッシブアンダーラインAttentionを提案する。
提案手法は精度と速度の両方を優先し,平均IoU 74.65 とダイススコア82.87 の両バランスを達成した。
論文 参考訳(メタデータ) (2024-05-02T17:33:26Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。