論文の概要: Learning Online Visual Invariances for Novel Objects via Super-vised and
Self-Supervised Training
- arxiv url: http://arxiv.org/abs/2110.01476v1
- Date: Mon, 4 Oct 2021 14:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 19:37:44.536402
- Title: Learning Online Visual Invariances for Novel Objects via Super-vised and
Self-Supervised Training
- Title(参考訳): super-vised と self-supervised training による新規物体のオンライン視覚不変性学習
- Authors: Valerio Biscione and Jeffrey S. Bowers
- Abstract要約: 本稿では,複数の変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより,標準的なCNNが人間のようなオンライン不変性をサポートできるかどうかを評価する。
変換対象を訓練した標準教師付きCNNは,10クラスから50個のオブジェクトを抽出して訓練しても,新しいクラスで強い不変性を得ることができることを示す。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans can identify objects following various spatial transformations such as
scale and viewpoint. This extends to novel objects, after a single presentation
at a single pose, sometimes referred to as online invariance. CNNs have been
proposed as a compelling model of human vision, but their ability to identify
objects across transformations is typically tested on held-out samples of
trained categories after extensive data augmentation. This paper assesses
whether standard CNNs can support human-like online invariance by training
models to recognize images of synthetic 3D objects that undergo several
transformations: rotation, scaling, translation, brightness, contrast, and
viewpoint. Through the analysis of models' internal representations, we show
that standard supervised CNNs trained on transformed objects can acquire strong
invariances on novel classes even when trained with as few as 50 objects taken
from 10 classes. This extended to a different dataset of photographs of real
objects. We also show that these invariances can be acquired in a
self-supervised way, through solving the same/different task. We suggest that
this latter approach may be similar to how humans acquire invariances.
- Abstract(参考訳): 人間は、スケールや視点といった様々な空間変換に従って物体を識別することができる。
これは、1つのポーズで1つのプレゼンテーションの後、しばしばオンライン不変性と呼ばれる新しいオブジェクトに拡張する。
cnnは人間の視覚の説得力のあるモデルとして提案されているが、変換を通してオブジェクトを識別する能力は通常、広範なデータ拡張の後、トレーニングされたカテゴリの保持されたサンプルでテストされる。
本稿では, 回転, スケーリング, 翻訳, 明るさ, コントラスト, 視点など, 様々な変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより, 標準的なCNNが人間のようなオンライン不変性をサポートできるかを評価する。
モデルの内部表現の分析を通して、変換されたオブジェクトにトレーニングされた標準教師付きcnnは、10クラスから50個のオブジェクトをトレーニングしても、新しいクラスで強い不変性を得ることができることを示した。
これは、実際のオブジェクトの写真の異なるデータセットに拡張された。
また、これらの不変性は、同じ/異なるタスクを解くことで、自己教師付きで取得できることを示す。
後者のアプローチは、人間が不変性を取得する方法と似ているかもしれない。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing [82.67716657524251]
本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。
我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
論文 参考訳(メタデータ) (2022-11-29T18:59:23Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - TransformNet: Self-supervised representation learning through predicting
geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文 参考訳(メタデータ) (2022-02-08T22:41:01Z) - Quantised Transforming Auto-Encoders: Achieving Equivariance to
Arbitrary Transformations in Deep Networks [23.673155102696338]
畳み込みニューラルネットワーク(CNN)は画像翻訳と等価である。
埋め込みは任意の等式関係を同時に従うオートエンコーダアーキテクチャを提案する。
いくつかのデータセット上で入力画像の変換版の再レンダリングに成功した結果を示す。
論文 参考訳(メタデータ) (2021-11-25T02:26:38Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - What Does CNN Shift Invariance Look Like? A Visualization Study [87.79405274610681]
畳み込みニューラルネットワーク(CNN)による特徴抽出は、機械学習タスクの画像を表現する一般的な方法である。
我々は,一般的な市販CNNモデルから抽出した特徴量の変動を計測し,可視化することに注力する。
人気ネットワークから抽出された特徴はグローバルに不変ではなく,この分散の中にバイアスやアーティファクトが存在すると結論付けている。
論文 参考訳(メタデータ) (2020-11-09T01:16:30Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。