論文の概要: Autoencoders with Intrinsic Dimension Constraints for Learning Low
Dimensional Image Representations
- arxiv url: http://arxiv.org/abs/2304.07686v1
- Date: Sun, 16 Apr 2023 03:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:46:38.432689
- Title: Autoencoders with Intrinsic Dimension Constraints for Learning Low
Dimensional Image Representations
- Title(参考訳): 低次元画像表現学習のための固有次元制約付きオートエンコーダ
- Authors: Jianzhang Zheng, Hao Shen, Jian Yang, Xuan Tang, Mingsong Chen, Hui
Yu, Jielong Guo, Xian Wei
- Abstract要約: 本稿では,グローバルおよびローカルID制約の正規化をデータ表現の再構成に組み込んだ,オートエンコーダを用いた新しい深層表現学習手法を提案する。
このアプローチはデータセット全体の大域多様体構造を保存するだけでなく、各点の特徴写像の局所多様体構造も維持する。
- 参考スコア(独自算出の注目度): 27.40298734517967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoencoders have achieved great success in various computer vision
applications. The autoencoder learns appropriate low dimensional image
representations through the self-supervised paradigm, i.e., reconstruction.
Existing studies mainly focus on the minimizing the reconstruction error on
pixel level of image, while ignoring the preservation of Intrinsic Dimension
(ID), which is a fundamental geometric property of data representations in Deep
Neural Networks (DNNs). Motivated by the important role of ID, in this paper,
we propose a novel deep representation learning approach with autoencoder,
which incorporates regularization of the global and local ID constraints into
the reconstruction of data representations. This approach not only preserves
the global manifold structure of the whole dataset, but also maintains the
local manifold structure of the feature maps of each point, which makes the
learned low-dimensional features more discriminant and improves the performance
of the downstream algorithms. To our best knowledge, existing works are rare
and limited on exploiting both global and local ID invariant properties on the
regularization of autoencoders. Numerical experimental results on benchmark
datasets (Extended Yale B, Caltech101 and ImageNet) show that the resulting
regularized learning models achieve better discriminative representations for
downstream tasks including image classification and clustering.
- Abstract(参考訳): オートエンコーダは様々なコンピュータビジョンアプリケーションで大きな成功を収めている。
オートエンコーダは、自己教師付きパラダイム、すなわち再構築を通じて適切な低次元画像表現を学習する。
既存の研究では、画像のピクセルレベルでの再構成誤差の最小化と、ディープニューラルネットワーク(DNN)におけるデータ表現の基本的な幾何学的性質である内在次元(ID)の保存を無視することに焦点を当てている。
本稿では,グローバルおよびローカルID制約の正規化をデータ表現の再構築に組み込んだ,オートエンコーダを用いた新しい深層表現学習手法を提案する。
このアプローチはデータセット全体の大域的多様体構造を保持するだけでなく、各点の特徴写像の局所的多様体構造も維持し、学習された低次元特徴をより識別し、下流アルゴリズムの性能を向上させる。
我々の知る限り、既存の研究は、オートエンコーダの正規化におけるグローバルおよびローカルなID不変特性の活用に限られている。
ベンチマークデータセット(Extended Yale B, Caltech101, ImageNet)の数値実験結果から, 結果の正規化学習モデルは, 画像分類やクラスタリングを含む下流タスクに対して, より優れた識別的表現を実現することが示された。
関連論文リスト
- GRIN: Zero-Shot Metric Depth with Pixel-Level Diffusion [27.35300492569507]
本稿では,非構造化トレーニングデータを取り込むための効率的な拡散モデルGRINを提案する。
GRINは,ゼロショット距離単眼深度推定において,スクラッチからトレーニングした場合でも,新たな技術の確立を図っている。
論文 参考訳(メタデータ) (2024-09-15T23:32:04Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z) - Structural Deep Clustering Network [45.370272344031285]
本研究では,構造情報を深層クラスタリングに統合する構造深層クラスタリングネットワーク(SDCN)を提案する。
具体的には、オートエンコーダが学習した表現を対応するGCN層に転送するデリバリ演算子を設計する。
このように、低次から高次までの複数のデータ構造は、オートエンコーダによって学習された複数の表現と自然に結合される。
論文 参考訳(メタデータ) (2020-02-05T04:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。