論文の概要: Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for
Ultra-High Resolution Segmentation
- arxiv url: http://arxiv.org/abs/2307.00711v2
- Date: Thu, 6 Jul 2023 02:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 11:09:42.700835
- Title: Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for
Ultra-High Resolution Segmentation
- Title(参考訳): 超高分解能セグメンテーションのための空間整合性誘導パッチグルーピングウェーブレット変換器
- Authors: Deyi Ji, Feng Zhao, Hongtao Lu
- Abstract要約: GPWFormer(GPWFormer)の提案
$mathcalT$は、UHRイメージ全体を入力として取り、局所的な詳細と細かな長距離コンテキスト依存の両方を抽出する。
$mathcalC$は、カテゴリの深いコンテキストを学ぶための入力として、サンプルイメージを取ります。
- 参考スコア(独自算出の注目度): 18.50799240622156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing ultra-high resolution (UHR) segmentation methods always
struggle in the dilemma of balancing memory cost and local characterization
accuracy, which are both taken into account in our proposed Guided
Patch-Grouping Wavelet Transformer (GPWFormer) that achieves impressive
performances. In this work, GPWFormer is a Transformer ($\mathcal{T}$)-CNN
($\mathcal{C}$) mutual leaning framework, where $\mathcal{T}$ takes the whole
UHR image as input and harvests both local details and fine-grained long-range
contextual dependencies, while $\mathcal{C}$ takes downsampled image as input
for learning the category-wise deep context. For the sake of high inference
speed and low computation complexity, $\mathcal{T}$ partitions the original UHR
image into patches and groups them dynamically, then learns the low-level local
details with the lightweight multi-head Wavelet Transformer (WFormer) network.
Meanwhile, the fine-grained long-range contextual dependencies are also
captured during this process, since patches that are far away in the spatial
domain can also be assigned to the same group. In addition, masks produced by
$\mathcal{C}$ are utilized to guide the patch grouping process, providing a
heuristics decision. Moreover, the congruence constraints between the two
branches are also exploited to maintain the spatial consistency among the
patches. Overall, we stack the multi-stage process in a pyramid way.
Experiments show that GPWFormer outperforms the existing methods with
significant improvements on five benchmark datasets.
- Abstract(参考訳): 既存の超高分解能(UHR)セグメンテーション手法は、メモリコストと局所特性のバランスをとるジレンマに常に苦労している。
この研究において、gpwformerはtransform($\mathcal{t}$)-cnn($\mathcal{c}$)相互傾きフレームワークであり、$\mathcal{t}$はuhrイメージ全体を入力として、局所的な詳細と細かな長距離のコンテキスト依存性の両方を収集する。
高い推論速度と計算の複雑さのために、$\mathcal{t}$ は元の uhr 画像をパッチに分割し、動的にグループ化し、軽量の multi-head wavelet transformer (wformer) ネットワークで低レベルなローカル詳細を学ぶ。
一方で、このプロセスでは、空間領域から遠く離れたパッチを同じグループに割り当てることもできるため、細かな長距離のコンテキスト依存性もキャプチャされる。
さらに、$\mathcal{c}$で生成されるマスクを使用してパッチグループ化プロセスをガイドし、ヒューリスティックス決定を提供する。
さらに、パッチ間の空間的一貫性を維持するために、2つのブランチ間の共役制約も活用する。
全体としては、マルチステージのプロセスをピラミッド的な方法で積み重ねます。
GPWFormerは5つのベンチマークデータセットで大幅に改善され、既存のメソッドよりも優れていた。
関連論文リスト
- RefineStyle: Dynamic Convolution Refinement for StyleGAN [15.230430037135017]
StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T15:01:30Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - The Need for Speed: Pruning Transformers with One Recipe [18.26707877972931]
OPTINは、事前トレーニングされたトランスフォーマーアーキテクチャの効率を向上させるためのツールである。
自然言語、画像分類、トランスファーラーニング、セマンティックセグメンテーションタスクに関する最先端の結果を生成する。
NLPベースラインから$leq 2$%の精度低下と、競合するFLOP削減における画像分類における最先端手法から$0.5$%の改善を示す。
論文 参考訳(メタデータ) (2024-03-26T17:55:58Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Recasting Self-Attention with Holographic Reduced Representations [31.89878931813593]
マルウェア検出の問題に触発された我々は,ホログラフィックリダクション(HRR)のニューロシンボリックアプローチを用いて,自己アテンションを再キャストする。
我々は、 $mathcalO(T H log H)$ time complexity, $mathcalO(T H)$ space complexity, and convergence in 10times$ less epochs などの利点を得る。
我々のHrrformerはLRAベンチマークでほぼ最先端の精度を実現しています。
論文 参考訳(メタデータ) (2023-05-31T03:42:38Z) - Generalization Bounds for Stochastic Gradient Descent via Localized
$\varepsilon$-Covers [16.618918548497223]
本稿では,SGDの軌道に局在する新しい被覆手法を提案する。
このローカライゼーションは、境界数によって測定されるアルゴリズム固有のクラスタリングを提供する。
これらの結果は様々な文脈で導き出され、既知の最先端のラベルレートが向上する。
論文 参考訳(メタデータ) (2022-09-19T12:11:07Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Dense Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
本稿では,高密度ガウス過程(GP)回帰に基づく数発のセグメンテーション法を提案する。
GPの高次元出力空間を学習するために,提案手法のエンドツーエンド学習機能を利用する。
提案手法では,PASCAL-5$i$とCOCO-20$i$のベンチマークで,1ショットと5ショットのFSSをそれぞれ新たな最先端に設定する。
論文 参考訳(メタデータ) (2021-10-07T17:57:54Z) - Region adaptive graph fourier transform for 3d point clouds [51.193111325231165]
本稿では,3次元点雲特性の圧縮のための領域適応グラフフーリエ変換(RA-GFT)を提案する。
RA-GFTは従来の手法よりも複雑性と性能のトレードオフが優れている。
論文 参考訳(メタデータ) (2020-03-04T02:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。