論文の概要: Depth and Representation in Vision Models
- arxiv url: http://arxiv.org/abs/2211.06496v1
- Date: Fri, 11 Nov 2022 22:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:35:54.842546
- Title: Depth and Representation in Vision Models
- Title(参考訳): 視覚モデルにおける奥行きと表現
- Authors: Benjamin L. Badger
- Abstract要約: レイヤーが深くなるほど、レイヤーの入力表現がトレーニングの前に正確でないことが分かります。
この研究は、画像認識と入力生成のタスクが、専用に分類するために訓練されたモデルであっても分離できないという理論を支持する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models develop successive representations of their input in
sequential layers, the last of which maps the final representation to the
output. Here we investigate the informational content of these representations
by observing the ability of convolutional image classification models to
autoencode the model's input using embeddings existing in various layers. We
find that the deeper the layer, the less accurate that layer's representation
of the input is before training. Inaccurate representation results from
non-uniqueness in which various distinct inputs give approximately the same
embedding. Non-unique representation is a consequence of both exact and
approximate non-invertibility of transformations present in the forward pass.
Learning to classify natural images leads to an increase in representation
clarity for early but not late layers, which instead form abstract images.
Rather than simply selecting for features present in the input necessary for
classification, deep layer representations are found to transform the input so
that it matches representations of the training data such that arbitrary inputs
are mapped to manifolds learned during training. This work provides support for
the theory that the tasks of image recognition and input generation are
inseparable even for models trained exclusively to classify.
- Abstract(参考訳): ディープラーニングモデルは、入力の連続的な表現をシーケンシャルなレイヤに展開し、最後の表現を出力にマップする。
本稿では,様々な層に存在する組込みを用いて,畳み込み画像分類モデルの入力を自動エンコードする能力を観察し,これらの表現の情報内容について検討する。
レイヤーが深くなるほど、レイヤーの入力表現がトレーニングの前に正確でないことが分かります。
不正確な表現は、様々な異なる入力がほぼ同じ埋め込みを与える非統一性から生じる。
非特異表現は、前方通過に存在する変換の正確かつ近似的な非可逆性の結果である。
自然画像の分類を学ぶと、初期でも後期でも表現の明確さが増し、抽象的な画像が作られるようになる。
分類に必要な入力に含まれる特徴を単に選択するのではなく、深層表現は、学習中に学習した多様体に任意の入力がマッピングされるように、トレーニングデータの表現と一致するように入力を変換する。
この研究は、画像認識と入力生成のタスクは、分類を専門に訓練されたモデルでも分離できないという理論を支持する。
関連論文リスト
- Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Explaining Image Classifiers Using Contrastive Counterfactuals in
Generative Latent Spaces [12.514483749037998]
本稿では,画像分類器の因果的かつ解釈可能な反事実的説明を生成する新しい手法を提案する。
我々は、ブラックボックス分類器のグローバルな説明として、コントラスト的かつ因果的満足度と必要性スコアを得るために、このフレームワークを使用します。
論文 参考訳(メタデータ) (2022-06-10T17:54:46Z) - Robust Training Using Natural Transformation [19.455666609149567]
画像分類アルゴリズムのロバスト性を改善するための逆学習手法であるNaTraを提案する。
クラス識別とは無関係な入力画像の属性をターゲティングし、それらの属性を操作して実世界の自然変換を模倣します。
本手法の有効性を,よく訓練されたGANから導かれる非絡み合った潜在表現を用いて実証する。
論文 参考訳(メタデータ) (2021-05-10T01:56:03Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z) - Autoregressive Unsupervised Image Segmentation [8.894935073145252]
入力から構築した異なるビュー間の相互情報に基づく教師なし画像分割手法を提案する。
提案手法は、教師なし画像セグメント化における最先端技術よりも優れている。
論文 参考訳(メタデータ) (2020-07-16T10:47:40Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Memory-Efficient Incremental Learning Through Feature Adaptation [71.1449769528535]
本稿では,以前学習したクラスから,画像の特徴記述子を保存するインクリメンタルラーニングのアプローチを提案する。
画像のより低次元の機能埋め込みを維持することで、メモリフットプリントが大幅に削減される。
実験の結果,インクリメンタルラーニングベンチマークにおいて,最先端の分類精度が得られた。
論文 参考訳(メタデータ) (2020-04-01T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。