論文の概要: kMaX-DeepLab: k-means Mask Transformer
- arxiv url: http://arxiv.org/abs/2207.04044v5
- Date: Mon, 10 Jul 2023 20:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 19:29:27.700338
- Title: kMaX-DeepLab: k-means Mask Transformer
- Title(参考訳): kmax-deeplab:k-meansマスクトランスフォーマー
- Authors: Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu,
Hartwig Adam, Alan Yuille, Liang-Chieh Chen
- Abstract要約: 既存のトランスフォーマーベースの視覚モデルは、単にNLPからアイデアを借りているだけである。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformerを開発した。
私たちのkMaX-DeepLabは、58.0% PQのCOCO valセット、68.4% PQのCityscapes valセット、44.0% AP、83.5% mIoUの最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 41.104116145904825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of transformers in vision tasks not only advances network backbone
designs, but also starts a brand-new page to achieve end-to-end image
recognition (e.g., object detection and panoptic segmentation). Originated from
Natural Language Processing (NLP), transformer architectures, consisting of
self-attention and cross-attention, effectively learn long-range interactions
between elements in a sequence. However, we observe that most existing
transformer-based vision models simply borrow the idea from NLP, neglecting the
crucial difference between languages and images, particularly the extremely
large sequence length of spatially flattened pixel features. This subsequently
impedes the learning in cross-attention between pixel features and object
queries. In this paper, we rethink the relationship between pixels and object
queries and propose to reformulate the cross-attention learning as a clustering
process. Inspired by the traditional k-means clustering algorithm, we develop a
k-means Mask Xformer (kMaX-DeepLab) for segmentation tasks, which not only
improves the state-of-the-art, but also enjoys a simple and elegant design. As
a result, our kMaX-DeepLab achieves a new state-of-the-art performance on COCO
val set with 58.0% PQ, Cityscapes val set with 68.4% PQ, 44.0% AP, and 83.5%
mIoU, and ADE20K val set with 50.9% PQ and 55.2% mIoU without test-time
augmentation or external dataset. We hope our work can shed some light on
designing transformers tailored for vision tasks. TensorFlow code and models
are available at https://github.com/google-research/deeplab2 A PyTorch
re-implementation is also available at
https://github.com/bytedance/kmax-deeplab
- Abstract(参考訳): ビジョンタスクにおけるトランスフォーマーの台頭は、ネットワークバックボーンの設計を進歩させるだけでなく、エンドツーエンドの画像認識(オブジェクト検出やパノプティックセグメンテーションなど)を実現するための新しいページも開始する。
自然言語処理(NLP)から派生したトランスフォーマーアーキテクチャは、配列内の要素間の長距離相互作用を効果的に学習する。
しかし、既存のトランスフォーマーベースの視覚モデルは、言語と画像、特に空間的に平坦なピクセル特徴の非常に大きなシーケンス長の違いを無視して、単にnlpからアイデアを借用しているだけである。
これはその後、ピクセル機能とオブジェクトクエリの相互接続における学習を妨げる。
本稿では,画素とオブジェクトクエリの関係を再考し,クラスタリングプロセスとしてのクロスアテンション学習の再構築を提案する。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformer(kMaX-DeepLab)を開発した。
その結果、当社のkMaX-DeepLabは、58.0% PQのCOCO val、68.4% PQ、44.0% AP、83.5% mIoUのCityscapes val、50.9% PQ、55.2% mIoUのADE20K val、テスト時間拡張または外部データセットなしで、新しい最先端のパフォーマンスを実現した。
私たちは、視覚タスクに適したトランスフォーマーの設計に光を当てられることを願っています。
TensorFlowコードとモデルはhttps://github.com/google-research/deeplab2で利用可能 PyTorchの再実装もhttps://github.com/bytedance/kmax-deeplabで利用可能である。
関連論文リスト
- MaskConver: Revisiting Pure Convolution Model for Panoptic Segmentation [17.627376199097185]
我々は純粋な畳み込みモデルを再検討し、MaskConverという新しい汎光学アーキテクチャを提案する。
MaskConverは、センターを予測することによって、物や物の表現を完全に統一することを提案する。
本稿では,畳み込みモデルと変圧器モデルのパフォーマンスギャップを埋める強力なConvNeXt-UNetデコーダを提案する。
論文 参考訳(メタデータ) (2023-12-11T00:52:26Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical
Image Segmentation [11.190117191084175]
本稿では,DeepLabライクな医用画像セグメンテーション用トランスフォーマであるTransDeepLabを提案する。
我々は、DeepLabv3を拡張し、ASPPモジュールをモデル化するために、シフトウィンドウを持つ階層型Swin-Transformerを利用する。
提案手法は,視覚変換器とCNNに基づく手法のアマルガメーションにおいて,現代のほとんどの作品に匹敵する,あるいは同等に動作する。
論文 参考訳(メタデータ) (2022-08-01T09:53:53Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-20T10:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。