論文の概要: Visual Recognition with Deep Nearest Centroids
- arxiv url: http://arxiv.org/abs/2209.07383v1
- Date: Thu, 15 Sep 2022 15:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:57:03.508557
- Title: Visual Recognition with Deep Nearest Centroids
- Title(参考訳): 深部セントロイドを用いた視覚認識
- Authors: Wenguan Wang, Cheng Han, Tianfei Zhou, Dongfang Liu
- Abstract要約: 我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
- 参考スコア(独自算出の注目度): 57.35144702563746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We devise deep nearest centroids (DNC), a conceptually elegant yet
surprisingly effective network for large-scale visual recognition, by
revisiting Nearest Centroids, one of the most classic and simple classifiers.
Current deep models learn the classifier in a fully parametric manner, ignoring
the latent data structure and lacking simplicity and explainability. DNC
instead conducts nonparametric, case-based reasoning; it utilizes sub-centroids
of training samples to describe class distributions and clearly explains the
classification as the proximity of test data and the class sub-centroids in the
feature space. Due to the distance-based nature, the network output
dimensionality is flexible, and all the learnable parameters are only for data
embedding. That means all the knowledge learnt for ImageNet classification can
be completely transferred for pixel recognition learning, under the
"pre-training and fine-tuning" paradigm. Apart from its nested simplicity and
intuitive decision-making mechanism, DNC can even possess ad-hoc explainability
when the sub-centroids are selected as actual training images that humans can
view and inspect. Compared with parametric counterparts, DNC performs better on
image classification (CIFAR-10, ImageNet) and greatly boots pixel recognition
(ADE20K, Cityscapes), with improved transparency and fewer learnable
parameters, using various network architectures (ResNet, Swin) and segmentation
models (FCN, DeepLabV3, Swin). We feel this work brings fundamental insights
into related fields.
- Abstract(参考訳): 我々は,概念上エレガントかつ驚くほど効果的な大規模視覚認識ネットワークであるdeep nearest centroids (dnc) を考案し,最も古典的で単純な分類器の一つである最も近いcentroidsを再検討した。
現在の深層モデルは、潜在データ構造を無視し、単純さと説明可能性を欠いた完全にパラメトリックな方法で分類器を学習する。
代わりに、DNCは非パラメトリックケースベースの推論を行い、訓練サンプルのサブセントロイドを用いてクラス分布を記述し、特徴空間におけるテストデータとクラスセントロイドの近さとして明確に分類する。
距離に基づく性質のため、ネットワーク出力の次元性は柔軟であり、学習可能なパラメータはすべてデータ埋め込みに限られる。
つまり、imagenetの分類で学んだ知識はすべて、"事前学習と微調整"のパラダイムの下で、ピクセル認識学習に完全に移行できるのです。
入れ子になった単純さと直感的な意思決定機構とは別に、dncは、人間が観察し検査できる実際のトレーニングイメージとして選択されたときに、アドホックな説明性を持つこともできる。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れており、透過性が向上し、学習可能なパラメータも少なく、様々なネットワークアーキテクチャ(ResNet, Swin)とセグメンテーションモデル(FCN, DeepLabV3, Swin)を使用している。
この研究は、関連する分野に根本的な洞察をもたらします。
関連論文リスト
- Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural
Calibration [99.44264155894376]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性変換を推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - CAR: Class-aware Regularizations for Semantic Segmentation [20.947897583427192]
特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
本手法は,OCRやCPNetを含む既存のセグメンテーションモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2022-03-14T15:02:48Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。