論文の概要: Multi-Scale Representations by Varying Window Attention for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2404.16573v1
- Date: Thu, 25 Apr 2024 12:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:40:12.239594
- Title: Multi-Scale Representations by Varying Window Attention for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのウィンドウアテンション変動によるマルチスケール表現
- Authors: Haotian Yan, Ming Wu, Chuang Zhang,
- Abstract要約: これらの問題に対処するために、新しいマルチスケール学習者、可変ウィンドウアテンション(VWA)を提示する。
性能を損なうことなく、余剰コストをゼロにするための単純だが専門的な再スケーリング戦略を提案する。
さらに、VWAと様々なデコーダを用いて、セマンティックセグメンテーションのためのマルチスケール表現を改善するために、マルチスケールデコーダ(MSD)であるVWFormerを導入する。
- 参考スコア(独自算出の注目度): 10.549932900057462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale learning is central to semantic segmentation. We visualize the effective receptive field (ERF) of canonical multi-scale representations and point out two risks in learning them: scale inadequacy and field inactivation. A novel multi-scale learner, varying window attention (VWA), is presented to address these issues. VWA leverages the local window attention (LWA) and disentangles LWA into the query window and context window, allowing the context's scale to vary for the query to learn representations at multiple scales. However, varying the context to large-scale windows (enlarging ratio R) can significantly increase the memory footprint and computation cost (R^2 times larger than LWA). We propose a simple but professional re-scaling strategy to zero the extra induced cost without compromising performance. Consequently, VWA uses the same cost as LWA to overcome the receptive limitation of the local window. Furthermore, depending on VWA and employing various MLPs, we introduce a multi-scale decoder (MSD), VWFormer, to improve multi-scale representations for semantic segmentation. VWFormer achieves efficiency competitive with the most compute-friendly MSDs, like FPN and MLP decoder, but performs much better than any MSDs. For instance, using nearly half of UPerNet's computation, VWFormer outperforms it by 1.0%-2.5% mIoU on ADE20K. With little extra overhead, ~10G FLOPs, Mask2Former armed with VWFormer improves by 1.0%-1.3%.
- Abstract(参考訳): マルチスケール学習はセマンティックセグメンテーションの中心である。
正準多スケール表現の有効受容場(ERF)を可視化し,学習における2つのリスクを指摘する。
これらの問題に対処するために、新しいマルチスケール学習者、可変ウィンドウアテンション(VWA)を提示する。
VWAはローカルウィンドウアテンション(LWA)を活用し、クエリウィンドウとコンテキストウインドウにLWAを巻き込み、クエリのスケールが複数のスケールで表現を学習できるようにする。
しかし、大規模ウィンドウ(拡大比R)へのコンテキスト変更は、メモリフットプリントと計算コスト(LWAの2倍)を大幅に向上させることができる。
性能を損なうことなく、余剰コストをゼロにするための単純だが専門的な再スケーリング戦略を提案する。
このため、VWAはLWAと同じコストでローカルウィンドウの受信制限を克服する。
さらに, VWA と様々な MLP を用いて, セマンティックセグメンテーションのためのマルチスケールデコーダ (MSD) である VWFormer を導入し, セマンティックセグメンテーションのマルチスケール表現を改善する。
VWFormerは、FPNやMLPデコーダのような最も計算にやさしいMSDと競合するが、他のMSDよりも性能が優れている。
例えば、UPerNetの計算のほぼ半分を使用して、VWFormerはADE20Kで1.0%-2.5% mIoUを上回っている。
10GのFLOPでは、VWFormerを搭載したMask2Formerは1.0%-1.3%向上した。
関連論文リスト
- Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Matryoshka Representation Learning [43.62026091806627]
Matryoshka Representation Learningは、下流タスクの計算制約に適応するために、単一の埋め込みを可能にする。
MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。
MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった、Webスケールのデータセットにシームレスに拡張する。
論文 参考訳(メタデータ) (2022-05-26T04:33:56Z) - VSA: Learning Varied-Size Window Attention in Vision Transformers [76.35955924137986]
データから適応的なウィンドウ構成を学習するためのtextbfVaried-textbfSize Window textbfAttention (VSA)を提案する。
デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置を予測するためにウィンドウ回帰モジュールを使用する。
論文 参考訳(メタデータ) (2022-04-18T17:56:07Z) - MixFormer: Mixing Features across Windows and Dimensions [68.86393312123168]
ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
論文 参考訳(メタデータ) (2022-04-06T03:13:50Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。