論文の概要: Extrapolating from a Single Image to a Thousand Classes using
Distillation
- arxiv url: http://arxiv.org/abs/2112.00725v1
- Date: Wed, 1 Dec 2021 18:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:21:18.232022
- Title: Extrapolating from a Single Image to a Thousand Classes using
Distillation
- Title(参考訳): 蒸留による1つの画像から1000クラスへの抽出
- Authors: Yuki M. Asano, Aaqib Saeed
- Abstract要約: ニューラルネットワークをスクラッチからトレーニングするフレームワークを1つの画像で開発する。
CIFAR-10/100では94%/74%,ImageNetでは59%,音声では84%,SpeechCommandsでは84%であった。
この研究は、一つの画像が何千ものオブジェクトクラスを外挿し、新たな研究課題を動機付けることができることを示している。
- 参考スコア(独自算出の注目度): 0.07614628596146598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What can neural networks learn about the visual world from a single image?
While it obviously cannot contain the multitudes of possible objects, scenes
and lighting conditions that exist - within the space of all possible
256^(3x224x224) 224-sized square images, it might still provide a strong prior
for natural images. To analyze this hypothesis, we develop a framework for
training neural networks from scratch using a single image by means of
knowledge distillation from a supervisedly pretrained teacher. With this, we
find that the answer to the above question is: 'surprisingly, a lot'. In
quantitative terms, we find top-1 accuracies of 94%/74% on CIFAR-10/100, 59% on
ImageNet and, by extending this method to audio, 84% on SpeechCommands. In
extensive analyses we disentangle the effect of augmentations, choice of source
image and network architectures and also discover "panda neurons" in networks
that have never seen a panda. This work shows that one image can be used to
extrapolate to thousands of object classes and motivates a renewed research
agenda on the fundamental interplay of augmentations and image.
- Abstract(参考訳): ニューラルネットワークは1つの画像から視覚の世界について何を学べるのか?
可能な256^(3x224x224)224サイズの四角い画像の空間には、存在する可能性のある物体、シーン、照明条件の多面体は含まれないが、自然画像には強い先行性があるかもしれない。
この仮説を分析するために,教師からの知識蒸留を用いて,単一の画像を用いてニューラルネットワークをスクラッチから学習する枠組みを開発した。
これにより、上記の質問に対する答えは「意外なことに、たくさん」であることがわかった。
定量的には、トップ1の確率はcifar-10/100では94%/74%、imagenetでは59%、音声に拡張すると84%である。
広範な分析では、増強効果、ソースイメージとネットワークアーキテクチャの選択、パンダを見たことのないネットワーク内の「パンダニューロン」の発見などの影響を解消する。
この研究は、1つのイメージを何千ものオブジェクトクラスに外挿し、拡張とイメージの基本的な相互作用に関する新たな研究課題を動機付けるために使用できることを示している。
関連論文リスト
- Null Space Properties of Neural Networks with Applications to Image
Steganography [6.063583864878311]
与えられたニューラルネットワークのヌル空間は、最終的な予測に寄与しない入力データの一部を教えてくれます。
ここで説明する1つの応用は、画像ステガノグラフィーの方法につながる。
論文 参考訳(メタデータ) (2024-01-01T03:32:28Z) - Why do CNNs excel at feature extraction? A mathematical explanation [53.807657273043446]
実世界のデータセットに似た画像を生成するのに使用できる特徴抽出に基づく画像分類の新しいモデルを提案する。
本研究では,特徴の存在を検知する一方向線形関数を構築し,畳み込みネットワークで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-07-03T10:41:34Z) - Towards robust vision by multi-task learning on monkey visual cortex [6.9014416935919565]
我々は,深部ネットワークを併用して画像分類を行い,マカク一次視覚野(V1)の神経活動を予測する訓練を行った。
その結果,モンキーV1データによるコトレーニングは,トレーニング中に歪みがないにもかかわらず,ロバスト性の向上につながることがわかった。
また、ネットワークの堅牢性が向上するにつれて、ネットワークの表現がより脳に似たものになることを示した。
論文 参考訳(メタデータ) (2021-07-29T21:55:48Z) - A Comparison for Patch-level Classification of Deep Learning Methods on
Transparent Images: from Convolutional Neural Networks to Visual Transformers [14.239178068576457]
本研究では,透過的な画像の解析が困難である問題に対して,異なるディープラーニングの分類性能を比較した。
我々は、4種類の畳み込みニューラルネットワークと新しいViTネットワークモデルを用いて、前景と背景の分類実験を比較する。
論文 参考訳(メタデータ) (2021-06-22T07:30:45Z) - Training data-efficient image transformers & distillation through
attention [93.22667339525832]
Imagenetのみのトレーニングにより,コンボリューションフリーなコンボリューショントランスを試作した。
参照ビジョン変換器(86Mパラメータ)は、トップ1の精度83.1%を達成する。
論文 参考訳(メタデータ) (2020-12-23T18:42:10Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Neural Sparse Representation for Image Restoration [116.72107034624344]
スパース符号化に基づく画像復元モデルの堅牢性と効率に触発され,深部ネットワークにおけるニューロンの空間性について検討した。
本手法は,隠れたニューロンに対する空間的制約を構造的に強制する。
実験により、複数の画像復元タスクのためのディープニューラルネットワークではスパース表現が不可欠であることが示されている。
論文 参考訳(メタデータ) (2020-06-08T05:15:17Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。