論文の概要: ClusterFormer: Clustering As A Universal Visual Learner
- arxiv url: http://arxiv.org/abs/2309.13196v3
- Date: Fri, 6 Oct 2023 00:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 03:29:28.753969
- Title: ClusterFormer: Clustering As A Universal Visual Learner
- Title(参考訳): ClusterFormer: ユニバーサルなビジュアル学習者としてのクラスタリング
- Authors: James C. Liang, Yiming Cui, Qifan Wang, Tong Geng, Wenguan Wang,
Dongfang Liu
- Abstract要約: CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
- 参考スコア(独自算出の注目度): 80.79669078819562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents CLUSTERFORMER, a universal vision model that is based on
the CLUSTERing paradigm with TransFORMER. It comprises two novel designs: 1.
recurrent cross-attention clustering, which reformulates the cross-attention
mechanism in Transformer and enables recursive updates of cluster centers to
facilitate strong representation learning; and 2. feature dispatching, which
uses the updated cluster centers to redistribute image features through
similarity-based metrics, resulting in a transparent pipeline. This elegant
design streamlines an explainable and transferable workflow, capable of
tackling heterogeneous vision tasks (i.e., image classification, object
detection, and image segmentation) with varying levels of clustering
granularity (i.e., image-, box-, and pixel-level). Empirical results
demonstrate that CLUSTERFORMER outperforms various well-known specialized
architectures, achieving 83.41% top-1 acc. over ImageNet-1K for image
classification, 54.2% and 47.0% mAP over MS COCO for object detection and
instance segmentation, 52.4% mIoU over ADE20K for semantic segmentation, and
55.8% PQ over COCO Panoptic for panoptic segmentation. For its efficacy, we
hope our work can catalyze a paradigm shift in universal models in computer
vision.
- Abstract(参考訳): 本稿では,Transformerを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルであるCLUSTERFORMERを提案する。
斬新なデザインが2つある。
一 変圧器におけるクロスアテンション機構を再構成し、クラスタセンタの再帰的な更新を可能にして強固な表現学習を促進する再帰的クロスアテンションクラスタリング
2. 機能ディスパッチ(feature dispatching)は、アップデートされたクラスタセンタを使用して、類似度ベースのメトリクスを通じてイメージ機能を再配布する。
このエレガントなデザインは説明可能で転送可能なワークフローを合理化し、クラスタリングの粒度(イメージ、ボックス、ピクセルレベル)の異なるレベルで異種視覚タスク(画像分類、オブジェクト検出、画像分割)に取り組むことができる。
実証的な結果は、CLUSTERFORMERが様々な有名な特殊アーキテクチャを上回り、83.41%のトップ1を達成していることを示している。
ImageNet-1K 画像分類では 54.2% と 47.0% mAP が MSCOCO で ADE20K で 52.4% mIoU で ADE20K で 55.8% PQ で
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Superpixel Graph Contrastive Clustering with Semantic-Invariant
Augmentations for Hyperspectral Images [64.72242126879503]
ハイパースペクトル画像(HSI)クラスタリングは重要な課題だが難しい課題である。
まず3次元と2次元のハイブリッド畳み込みニューラルネットワークを用いてHSIの高次空間およびスペクトルの特徴を抽出する。
次に,超画素グラフの対比クラスタリングモデルを設計し,識別的超画素表現を学習する。
論文 参考訳(メタデータ) (2024-03-04T07:40:55Z) - Rethinking cluster-conditioned diffusion models for label-free image synthesis [1.4624458429745086]
拡散に基づく画像生成モデルは、地上の真理ラベルに条件付けされた場合の画質を向上させることができる。
クラスタ数やクラスタリング手法など,個々のクラスタリング決定要因が画像合成に与える影響について検討する。
論文 参考訳(メタデータ) (2024-03-01T14:47:46Z) - Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering [37.15595383168132]
GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
論文 参考訳(メタデータ) (2023-10-27T03:07:05Z) - CVFC: Attention-Based Cross-View Feature Consistency for Weakly
Supervised Semantic Segmentation of Pathology Images [3.2128744424771725]
病理組織像分割はがんの診断における金の基準である。
多くの研究が画像レベルのラベルを使用してピクセルレベルのセグメンテーションを実現し、微粒なアノテーションの必要性を減らしている。
そこで本研究では,CVFC という疑似マスク生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-21T03:50:09Z) - CLUSTSEG: Clustering for Universal Segmentation [56.58677563046506]
CLUSTSEGは画像セグメンテーションのための一般的なトランスフォーマーベースのフレームワークである。
これは、統合されたニューラルクラスタリングスキームを通じて、異なるイメージセグメンテーションタスク(スーパーピクセル、セマンティック、インスタンス、パノプティクス)に取り組む。
論文 参考訳(メタデータ) (2023-05-03T15:31:16Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Deep Transformation-Invariant Clustering [24.23117820167443]
抽象的な特徴に頼らず、画像変換の予測を学ぶアプローチを提案する。
この学習プロセスは、K平均とガウス混合モデルの勾配に基づく訓練に自然に適合する。
我々の新しいアプローチは、標準的な画像クラスタリングベンチマークにおいて、競争力があり、非常に有望な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-19T13:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。