論文の概要: PAUMER: Patch Pausing Transformer for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2311.00586v1
- Date: Wed, 1 Nov 2023 15:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:03:49.950357
- Title: PAUMER: Patch Pausing Transformer for Semantic Segmentation
- Title(参考訳): PAUMER:セマンティックセグメンテーションのためのパッチパジング変換器
- Authors: Evann Courdier, Prabhu Teja Sivaprasad, Fran\c{c}ois Fleuret
- Abstract要約: 画像の異なる部分の異なる計算量を用いて分割変換器の効率を向上する問題について検討する。
提案手法であるPAUMERは,最終的なデコーダに先立って,それ以上の計算を必要としないパッチの計算処理を行うことで,これを実現する。
- 参考スコア(独自算出の注目度): 3.3148826359547523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of improving the efficiency of segmentation transformers
by using disparate amounts of computation for different parts of the image. Our
method, PAUMER, accomplishes this by pausing computation for patches that are
deemed to not need any more computation before the final decoder. We use the
entropy of predictions computed from intermediate activations as the pausing
criterion, and find this aligns well with semantics of the image. Our method
has a unique advantage that a single network trained with the proposed strategy
can be effortlessly adapted at inference to various run-time requirements by
modulating its pausing parameters. On two standard segmentation datasets,
Cityscapes and ADE20K, we show that our method operates with about a $50\%$
higher throughput with an mIoU drop of about $0.65\%$ and $4.6\%$ respectively.
- Abstract(参考訳): 画像の異なる部分の異なる計算量を用いて分割変換器の効率を改善する問題について検討する。
提案手法であるpaumerは,ファイナルデコーダの前に計算が不要であると考えられるパッチの計算をポーリングすることで,これを実現する。
中間アクティベーションから計算した予測のエントロピーを舗装基準として使用し,画像のセマンティクスとよく一致していることを示す。
提案手法は,提案手法を用いてトレーニングした1つのネットワークを,パウジングパラメータを変調することにより,様々な実行時要求に適応させることが可能である。
cityscapes と ade20k の2つの標準セグメンテーションデータセットについて,miou は約$0.65\%$ と $4.6\%$ の低下で,スループットが約 50 % 高い値で動作していることを示した。
関連論文リスト
- MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping [1.1557852082644071]
少数の例だけで、クエリイメージ内のオブジェクトをセグメント化するという課題に、Semanticは対処している。
本稿では,トランスアーキテクチャに基づく新しいFew-shot Semanticフレームワークを提案する。
150万のパラメータしか持たないモデルでは,既存の手法の限界を克服しつつ,競争性能を実証している。
論文 参考訳(メタデータ) (2024-09-17T16:14:03Z) - PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。
本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。
我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文 参考訳(メタデータ) (2024-07-06T09:04:27Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Inverse Quantum Fourier Transform Inspired Algorithm for Unsupervised
Image Segmentation [2.4271601178529063]
IQFTの基本的な数学的構造を利用して,新しいIQFTインスパイアされたアルゴリズムを提案し,実装した。
提案手法は,画像中の画素の位相情報を利用して,画素の強度をクビット相対位相に符号化し,IQFTを適用して画素を異なるセグメントに自動かつ効率的に分類する。
提案手法は,PASCAL VOC 2012セグメンテーションベンチマークとxVIEW2チャレンジデータセットにおいて,平均的インターセクション・オーバー・ユニオン(mIOU)で最大50%性能を向上する。
論文 参考訳(メタデータ) (2023-01-11T20:28:44Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Dense Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
本稿では,高密度ガウス過程(GP)回帰に基づく数発のセグメンテーション法を提案する。
GPの高次元出力空間を学習するために,提案手法のエンドツーエンド学習機能を利用する。
提案手法では,PASCAL-5$i$とCOCO-20$i$のベンチマークで,1ショットと5ショットのFSSをそれぞれ新たな最先端に設定する。
論文 参考訳(メタデータ) (2021-10-07T17:57:54Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。