論文の概要: k-means Mask Transformer
- arxiv url: http://arxiv.org/abs/2207.04044v1
- Date: Fri, 8 Jul 2022 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:05:06.641284
- Title: k-means Mask Transformer
- Title(参考訳): k-meansマスク変圧器
- Authors: Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hatwig
Adam, Alan Yuille, Liang-Chieh Chen
- Abstract要約: 自己アテンションと相互アテンションからなるトランスフォーマーアーキテクチャは、配列内の要素間の長距離相互作用を効果的に学習する。
既存のトランスフォーマーベースの視覚モデルは、言語と画像の重大な違いを無視して、単にNLPからアイデアを借りている。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformerを開発した。
- 参考スコア(独自算出の注目度): 33.118240774340705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of transformers in vision tasks not only advances network backbone
designs, but also starts a brand-new page to achieve end-to-end image
recognition (e.g., object detection and panoptic segmentation). Originated from
Natural Language Processing (NLP), transformer architectures, consisting of
self-attention and cross-attention, effectively learn long-range interactions
between elements in a sequence. However, we observe that most existing
transformer-based vision models simply borrow the idea from NLP, neglecting the
crucial difference between languages and images, particularly the extremely
large sequence length of spatially flattened pixel features. This subsequently
impedes the learning in cross-attention between pixel features and object
queries. In this paper, we rethink the relationship between pixels and object
queries and propose to reformulate the cross-attention learning as a clustering
process. Inspired by the traditional k-means clustering algorithm, we develop a
k-means Mask Xformer (kMaX-DeepLab) for segmentation tasks, which not only
improves the state-of-the-art, but also enjoys a simple and elegant design. As
a result, our kMaX-DeepLab achieves a new state-of-the-art performance on COCO
val set with 58.0% PQ, and Cityscapes val set with 68.4% PQ, 44.0% AP, and
83.5% mIoU without test-time augmentation or external dataset. We hope our work
can shed some light on designing transformers tailored for vision tasks. Code
and models are available at https://github.com/google-research/deeplab2
- Abstract(参考訳): ビジョンタスクにおけるトランスフォーマーの台頭は、ネットワークバックボーンの設計を進歩させるだけでなく、エンドツーエンドの画像認識(オブジェクト検出やパノプティックセグメンテーションなど)を実現するための新しいページも開始する。
自然言語処理(NLP)から派生したトランスフォーマーアーキテクチャは、配列内の要素間の長距離相互作用を効果的に学習する。
しかし、既存のトランスフォーマーベースの視覚モデルは、言語と画像、特に空間的に平坦なピクセル特徴の非常に大きなシーケンス長の違いを無視して、単にnlpからアイデアを借用しているだけである。
これはその後、ピクセル機能とオブジェクトクエリの相互接続における学習を妨げる。
本稿では,画素とオブジェクトクエリの関係を再考し,クラスタリングプロセスとしてのクロスアテンション学習の再構築を提案する。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformer(kMaX-DeepLab)を開発した。
その結果、当社のkmax-deeplabは、58.0%pqのcoco valセットと68.4%pq、44.0%ap、83.5%miouのcityscapes valセットの新たな最先端性能を実現しました。
私たちは、視覚タスクに適したトランスフォーマーの設計に光を当てられることを願っています。
コードとモデルはhttps://github.com/google-research/deeplab2で利用可能
関連論文リスト
- MaskConver: Revisiting Pure Convolution Model for Panoptic Segmentation [17.627376199097185]
我々は純粋な畳み込みモデルを再検討し、MaskConverという新しい汎光学アーキテクチャを提案する。
MaskConverは、センターを予測することによって、物や物の表現を完全に統一することを提案する。
本稿では,畳み込みモデルと変圧器モデルのパフォーマンスギャップを埋める強力なConvNeXt-UNetデコーダを提案する。
論文 参考訳(メタデータ) (2023-12-11T00:52:26Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical
Image Segmentation [11.190117191084175]
本稿では,DeepLabライクな医用画像セグメンテーション用トランスフォーマであるTransDeepLabを提案する。
我々は、DeepLabv3を拡張し、ASPPモジュールをモデル化するために、シフトウィンドウを持つ階層型Swin-Transformerを利用する。
提案手法は,視覚変換器とCNNに基づく手法のアマルガメーションにおいて,現代のほとんどの作品に匹敵する,あるいは同等に動作する。
論文 参考訳(メタデータ) (2022-08-01T09:53:53Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-20T10:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。