論文の概要: Image as Set of Points
- arxiv url: http://arxiv.org/abs/2303.01494v1
- Date: Thu, 2 Mar 2023 18:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 12:48:59.879081
- Title: Image as Set of Points
- Title(参考訳): 点の集合としてのイメージ
- Authors: Xu Ma, Yuqian Zhou, Huan Wang, Can Qin, Bin Sun, Chang Liu, Yun Fu
- Abstract要約: コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
- 参考スコア(独自算出の注目度): 60.30495338399321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is an image and how to extract latent features? Convolutional Networks
(ConvNets) consider an image as organized pixels in a rectangular shape and
extract features via convolutional operation in local region; Vision
Transformers (ViTs) treat an image as a sequence of patches and extract
features via attention mechanism in a global range. In this work, we introduce
a straightforward and promising paradigm for visual representation, which is
called Context Clusters. Context clusters (CoCs) view an image as a set of
unorganized points and extract features via simplified clustering algorithm. In
detail, each point includes the raw feature (e.g., color) and positional
information (e.g., coordinates), and a simplified clustering algorithm is
employed to group and extract deep features hierarchically. Our CoCs are
convolution- and attention-free, and only rely on clustering algorithm for
spatial interaction. Owing to the simple design, we show CoCs endow gratifying
interpretability via the visualization of clustering process. Our CoCs aim at
providing a new perspective on image and visual representation, which may enjoy
broad applications in different domains and exhibit profound insights. Even
though we are not targeting SOTA performance, COCs still achieve comparable or
even better results than ConvNets or ViTs on several benchmarks. Codes are
available at: https://github.com/ma-xu/Context-Cluster.
- Abstract(参考訳): イメージとは何か、潜在機能をどのように抽出するか?
畳み込みネットワーク(ConvNets)は、画像を長方形に整理したピクセルとみなし、局所的な畳み込み操作によって特徴を抽出する。
本稿では,視覚的表現のための単純かつ有望なパラダイム,すなわちコンテキストクラスタについて述べる。
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
詳細は、各点が生の特徴(例えば色)と位置情報(例えば座標)を含み、単純化されたクラスタリングアルゴリズムを使用して、階層的に深い特徴をグループ化し抽出する。
われわれのCoCは畳み込みと無注意で、空間相互作用のためのクラスタリングアルゴリズムのみに依存している。
単純な設計のため,クラスタ化プロセスの可視化により,cocsは満足できる解釈性を示す。
私たちのCoCは、画像と視覚表現に関する新しい視点を提供することを目標としています。
sotaのパフォーマンスを目標としていないが、cocsはいくつかのベンチマークでconvnetやvitsと同等あるいはそれ以上のパフォーマンスを達成している。
コードは、https://github.com/ma-xu/Context-Cluster.comで入手できる。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Deep Structure and Attention Aware Subspace Clustering [29.967881186297582]
本稿では,新しいサブスペースクラスタリング(DSASC)を提案する。
視覚変換器を用いて特徴を抽出し,抽出した特徴を2つの部分,構造特徴,内容特徴に分割する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-25T01:19:47Z) - Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering [37.15595383168132]
GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
論文 参考訳(メタデータ) (2023-10-27T03:07:05Z) - CoC-GAN: Employing Context Cluster for Unveiling a New Pathway in Image
Generation [12.211795836214112]
本稿では,画像から一組の点雲へ変換する観点から,ユニークな画像生成プロセスを提案する。
我々の手法は、コンテキストクラスタリング(CoC)と呼ばれる単純なクラスタリング手法を利用して、順序のない点集合から画像を生成する。
我々は,このモデルをコンテキストクラスタリング生成適応ネットワーク(CoC-GAN)として導入する。
論文 参考訳(メタデータ) (2023-08-23T01:19:58Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - DeepCut: Unsupervised Segmentation using Graph Neural Networks
Clustering [6.447863458841379]
本研究では,従来のクラスタリング手法を置き換える軽量グラフニューラルネットワーク(GNN)を提案する。
既存の手法とは異なり、GNNはローカル画像特徴と生特徴とのペアワイズ親和性の両方を入力として取ります。
画像セグメンテーションGNNを訓練するための自己教師付き損失関数として,古典的クラスタリングの目的を定式化する方法を実証する。
論文 参考訳(メタデータ) (2022-12-12T12:31:46Z) - GroupViT: Semantic Segmentation Emerges from Text Supervision [82.02467579704091]
グループ化と認識は視覚的シーン理解の重要な構成要素である。
階層型グループ視覚変換器(GroupViT)を提案する。
GroupViTはセマンティック領域をグループ化し、セマンティックセグメンテーションのタスクにゼロショットで転送する。
論文 参考訳(メタデータ) (2022-02-22T18:56:04Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。