論文の概要: On the surprising similarities between supervised and self-supervised
models
- arxiv url: http://arxiv.org/abs/2010.08377v1
- Date: Fri, 16 Oct 2020 13:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:04:04.131896
- Title: On the surprising similarities between supervised and self-supervised
models
- Title(参考訳): 教師付きモデルと自己教師付きモデルの驚くべき類似性について
- Authors: Robert Geirhos, Kantharaju Narayanappa, Benjamin Mitzkus, Matthias
Bethge, Felix A. Wichmann, Wieland Brendel
- Abstract要約: 自己教師ネットワークと教師付きモデルと人間の行動を比較した。
現在の自己監督型CNNは、監督型CNNの4つの重要な特徴を共有している。
将来の自己管理モデルは、教師付きモデルと異なる振る舞いをすることを期待しています。
- 参考スコア(独自算出の注目度): 29.04088957917865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do humans learn to acquire a powerful, flexible and robust representation
of objects? While much of this process remains unknown, it is clear that humans
do not require millions of object labels. Excitingly, recent algorithmic
advancements in self-supervised learning now enable convolutional neural
networks (CNNs) to learn useful visual object representations without
supervised labels, too. In the light of this recent breakthrough, we here
compare self-supervised networks to supervised models and human behaviour. We
tested models on 15 generalisation datasets for which large-scale human
behavioural data is available (130K highly controlled psychophysical trials).
Surprisingly, current self-supervised CNNs share four key characteristics of
their supervised counterparts: (1.) relatively poor noise robustness (with the
notable exception of SimCLR), (2.) non-human category-level error patterns,
(3.) non-human image-level error patterns (yet high similarity to supervised
model errors) and (4.) a bias towards texture. Taken together, these results
suggest that the strategies learned through today's supervised and
self-supervised training objectives end up being surprisingly similar, but
distant from human-like behaviour. That being said, we are clearly just at the
beginning of what could be called a self-supervised revolution of machine
vision, and we are hopeful that future self-supervised models behave
differently from supervised ones, and---perhaps---more similar to robust human
object recognition.
- Abstract(参考訳): 人間は、オブジェクトの強力で柔軟で堅牢な表現をどうやって習得するか?
このプロセスの多くは未知数だが、人間が数百万のオブジェクトラベルを必要としないことは明らかである。
面白いことに、最近の自己教師付き学習のアルゴリズム的な進歩により、畳み込みニューラルネットワーク(cnns)は教師付きラベルなしで有用な視覚オブジェクト表現を学習できるようになった。
この最近のブレークスルーに照らして、自己教師付きネットワークと教師付きモデルと人間の行動を比較する。
大規模行動データ(130kの高度に制御された心理物理実験)が利用できる15の一般化データセットでモデルをテストした。
驚くべきことに、現在の自己教師付きcnnは、監視対象の4つの重要な特性を共有している: (1.) 比較的ノイズのロバスト性(simclrを除く)、 (2.) 非人間カテゴリーレベルのエラーパターン(3.) 非人間画像レベルのエラーパターン(教師付きモデルエラーと非常に類似している)、および (4.) テクスチャに対するバイアス。
これらの結果から,今日の指導的・自己監督的訓練目標から学んだ戦略は,驚くほど類似するが,人間的な行動からは程遠いものとなることが示唆された。
とは言っても、私たちは明らかに、機械ビジョンの自己監督的革命と呼ばれるものの始まりに過ぎず、将来の自己監督的モデルは、監督的モデルとは異なる振る舞いをすることを期待しています。
関連論文リスト
- Aligning Machine and Human Visual Representations across Abstraction Levels [42.86478924838503]
深層ニューラルネットワークは、視覚タスクにおける人間の振る舞いのモデルなど、幅広いアプリケーションで成功している。
しかしながら、ニューラルネットワークのトレーニングと人間の学習は基本的な方法で異なり、ニューラルネットワークは人間のように堅牢に一般化できないことが多い。
人間の概念的知識は、きめ細かいものから粗いものまで階層的に構成されているが、モデル表現は、これらの抽象レベルをすべて正確に捉えているわけではない。
このミスアライメントに対処するために、私たちはまず、人間の判断を模倣するために教師モデルを訓練し、その表現から事前訓練された状態に人間のような構造を移す。
論文 参考訳(メタデータ) (2024-09-10T13:41:08Z) - Approaching human 3D shape perception with neurally mappable models [15.090436065092716]
人間は力ずくで物体の3次元形状を推測する。
現在の計算モデルでは、視点を越えてオブジェクトの形状にマッチする人間の能力を捉えていない。
この研究は、ニューラルマップ可能な計算アーキテクチャ内の人間の形状推論を理解する基盤を提供する。
論文 参考訳(メタデータ) (2023-08-22T09:29:05Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Human alignment of neural network representations [22.671101285994013]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Partial success in closing the gap between human and machine vision [30.78663978510427]
数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
我々は、広範囲なアウト・オブ・ディストリビューション(OOD)データセット上で、人間のオブザーバをテストした。
論文 参考訳(メタデータ) (2021-06-14T13:23:35Z) - Are Convolutional Neural Networks or Transformers more like human
vision? [9.83454308668432]
視覚タスクにおけるCNNよりも注意に基づくネットワークの方が精度が高いことを示す。
これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。
論文 参考訳(メタデータ) (2021-05-15T10:33:35Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - How Well Do Self-Supervised Models Transfer? [92.16372657233394]
我々は、40の下流タスクにおいて、トップ13の自己教師型モデルの転送性能を評価する。
ImageNet Top-1の精度は、マルチショット認識への転送と非常に相関している。
全体としては、単一の自己監督的手法が支配的ではなく、普遍的な事前訓練がまだ未解決であることを示唆している。
論文 参考訳(メタデータ) (2020-11-26T16:38:39Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。