論文の概要: DHOG: Deep Hierarchical Object Grouping
- arxiv url: http://arxiv.org/abs/2003.08821v1
- Date: Fri, 13 Mar 2020 14:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 00:54:32.427760
- Title: DHOG: Deep Hierarchical Object Grouping
- Title(参考訳): DHOG: 階層的なオブジェクトグループ
- Authors: Luke Nicholas Darlow, Amos Storkey
- Abstract要約: 本研究では,相互情報量(勾配最適化など)を最大化するための欲求的あるいは局所的手法が,相互情報量規準の局所的最適性を発見することを示す。
本稿では,画像の多数の異なる表現を階層的順序で計算するディープ階層的オブジェクトグループ化(DHOG)を提案する。
これらの表現は、下層のオブジェクトクラスにグループ化する下流のタスクとよく一致している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a number of competitive methods have tackled unsupervised
representation learning by maximising the mutual information between the
representations produced from augmentations. The resulting representations are
then invariant to stochastic augmentation strategies, and can be used for
downstream tasks such as clustering or classification. Yet data augmentations
preserve many properties of an image and so there is potential for a suboptimal
choice of representation that relies on matching easy-to-find features in the
data. We demonstrate that greedy or local methods of maximising mutual
information (such as stochastic gradient optimisation) discover local optima of
the mutual information criterion; the resulting representations are also
less-ideally suited to complex downstream tasks. Earlier work has not
specifically identified or addressed this issue. We introduce deep hierarchical
object grouping (DHOG) that computes a number of distinct discrete
representations of images in a hierarchical order, eventually generating
representations that better optimise the mutual information objective. We also
find that these representations align better with the downstream task of
grouping into underlying object classes. We tested DHOG on unsupervised
clustering, which is a natural downstream test as the target representation is
a discrete labelling of the data. We achieved new state-of-the-art results on
the three main benchmarks without any prefiltering or Sobel-edge detection that
proved necessary for many previous methods to work. We obtain accuracy
improvements of: 4.3% on CIFAR-10, 1.5% on CIFAR-100-20, and 7.2% on SVHN.
- Abstract(参考訳): 近年,拡張による表現間の相互情報の最大化により,教師なし表現学習に多くの競争的手法が取り組んできた。
結果として得られる表現は確率的拡張戦略に不変であり、クラスタリングや分類といった下流タスクに使用できる。
しかし、データ拡張は画像の多くの特性を保存するため、データ内の簡単でフィニッシュな特徴にマッチする表現を最適に選択する可能性がある。
我々は,相互情報量(確率勾配最適化など)を最大化するための欲求的あるいは局所的手法が相互情報量規準の局所的最適性を発見することを示した。
以前の作業では、この問題を具体的に特定あるいは解決していない。
本稿では,画像の異なる離散表現を階層的な順序で計算し,最終的に相互情報目的をより最適化する表現を生成するdhog(deep hierarchical object grouping)を導入する。
また、これらの表現は、下層のオブジェクトクラスにグループ化する下流タスクとよく一致しています。
我々はDHOGを教師なしクラスタリングでテストした。これは自然な下流テストであり、ターゲット表現はデータの離散的なラベル付けである。
我々は,従来の多くの手法で必要な事前フィルタやソベルエッジ検出を使わずに,3つのベンチマークで最新の結果を得た。
CIFAR-10では4.3%、CIFAR-100-20では1.5%、SVHNでは7.2%の精度向上が得られた。
関連論文リスト
- Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - From Chaos Comes Order: Ordering Event Representations for Object
Recognition and Detection [29.653946064645705]
本稿では、Gromov-Wasserstein Discrepancy(GWD)に基づくタスクの適切な表現を、生イベントとそれらの表現の間で選択する方法を示す。
ニューラルネットワークのトレーニングよりも計算が約200倍高速で、イベント表現のタスクパフォーマンスランキングを保存する。
最適化された表現は1Mpxデータセットで1.7mAP、Gen1データセットで0.3mAP、確立された2つのオブジェクト検出ベンチマークで3.8%、Mini N-ImageNetベンチマークで3.8%、既存の表現よりも優れています。
論文 参考訳(メタデータ) (2023-04-26T11:27:34Z) - C3: Cross-instance guided Contrastive Clustering [8.953252452851862]
クラスタリングは、事前に定義されたラベルを使わずに、類似したデータサンプルをクラスタに収集するタスクである。
我々は,新しいコントラストクラスタリング手法であるクロスインスタンスガイドコントラストクラスタリング(C3)を提案する。
提案手法は、ベンチマークコンピュータビジョンデータセット上で最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2022-11-14T06:28:07Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - PointInst3D: Segmenting 3D Instances by Points [136.7261709896713]
本稿では,ポイント単位の予測方式で機能する,完全畳み込み型3Dポイントクラウドインスタンスセグメンテーション手法を提案する。
その成功の鍵は、各サンプルポイントに適切なターゲットを割り当てることにある。
提案手法はScanNetとS3DISのベンチマークで有望な結果が得られる。
論文 参考訳(メタデータ) (2022-04-25T02:41:46Z) - Top-Down Deep Clustering with Multi-generator GANs [0.0]
ディープクラスタリング(DC)は、クラスタ分析に最適な埋め込み空間を学習する。
複数のジェネレータ(MGAN)を持つGANをベースとした新しい技術であるHC-MGANを提案する。
本手法は,MGANの各生成元が実データ分布のサブリージョンと相関するデータを生成する傾向にあるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2021-12-06T22:53:12Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。