論文の概要: Unsupervised Foveal Vision Neural Networks with Top-Down Attention
- arxiv url: http://arxiv.org/abs/2010.09103v1
- Date: Sun, 18 Oct 2020 20:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 04:06:54.933865
- Title: Unsupervised Foveal Vision Neural Networks with Top-Down Attention
- Title(参考訳): トップダウン注意を伴う教師なしフォビアビジョンニューラルネットワーク
- Authors: Ryan Burt, Nina N. Thigpen, Andreas Keil, Jose C. Principe
- Abstract要約: 本稿では,教師なし学習技術のみを用いたボトムアップ・サリエンシーとトップダウン・アテンションの融合を提案する。
トロントおよびCAT2000データベース上で提案したガンマ塩分濃度法の性能を検証した。
また,CNNの上位層に適用したガンマ塩分度に基づくトップダウンアテンション機構を開発し,背景が乱れの強いマルチオブジェクト画像や画像のシーン理解を改善する。
- 参考スコア(独自算出の注目度): 0.3058685580689604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning architectures are an extremely powerful tool for recognizing
and classifying images. However, they require supervised learning and normally
work on vectors the size of image pixels and produce the best results when
trained on millions of object images. To help mitigate these issues, we propose
the fusion of bottom-up saliency and top-down attention employing only
unsupervised learning techniques, which helps the object recognition module to
focus on relevant data and learn important features that can later be
fine-tuned for a specific task. In addition, by utilizing only relevant
portions of the data, the training speed can be greatly improved. We test the
performance of the proposed Gamma saliency technique on the Toronto and CAT2000
databases, and the foveated vision in the Street View House Numbers (SVHN)
database. The results in foveated vision show that Gamma saliency is comparable
to the best and computationally faster. The results in SVHN show that our
unsupervised cognitive architecture is comparable to fully supervised methods
and that the Gamma saliency also improves CNN performance if desired. We also
develop a topdown attention mechanism based on the Gamma saliency applied to
the top layer of CNNs to improve scene understanding in multi-object images or
images with strong background clutter. When we compare the results with human
observers in an image dataset of animals occluded in natural scenes, we show
that topdown attention is capable of disambiguating object from background and
improves system performance beyond the level of human observers.
- Abstract(参考訳): ディープラーニングアーキテクチャは、イメージを認識および分類するための非常に強力なツールである。
しかし、教師付き学習が必要で、通常は画像ピクセルのサイズをベクターで処理し、何百万ものオブジェクトイメージでトレーニングすると、最高の結果が得られる。
これらの問題を緩和するために、オブジェクト認識モジュールが関連するデータに集中し、後で特定のタスクのために微調整できる重要な特徴を学ぶのに役立つ、教師なし学習技術のみを用いてボトムアップ・サリエンシとトップダウン・アテンションの融合を提案する。
また、データの関連部分のみを利用することで、トレーニング速度を大幅に向上させることができる。
トロントとCAT2000のデータベース上で提案したガンマサリエンシ手法とストリートビューハウスナンバーズ(SVHN)データベースにおけるファベレージビジョンの性能を検証した。
その結果,ガンマ塩分濃度は最良かつ計算的に高速であることがわかった。
SVHNの結果,我々の非教師なし認知アーキテクチャは完全教師付き手法に匹敵するものであり,ガンマサリエンシは望めばCNN性能も向上することが示された。
また,CNNの上位層に適用したガンマ塩分度に基づくトップダウンアテンション機構を開発し,背景が乱れの強いマルチオブジェクト画像や画像のシーン理解を改善する。
自然界に隠された動物のイメージデータセットにおいて、人間の観察者と比較すると、トップダウンの注意は、背景から物体を曖昧にし、人間の観察者以上のシステム性能を向上させることができる。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Supervised and Contrastive Self-Supervised In-Domain Representation
Learning for Dense Prediction Problems in Remote Sensing [0.0]
本稿では、リモートセンシングと画像Netデータセットの領域差を解決するために、教師付きおよび自己教師型両方のドメイン表現の有効性について検討する。
自己教師付き事前学習では,SimSiamアルゴリズムは単純であり,膨大な計算資源を必要としない。
その結果,自己教師付き表現学習に空間分解能の高いデータセットを用いることで,下流タスクの性能が向上することが実証された。
論文 参考訳(メタデータ) (2023-01-29T20:56:51Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Hybrid BYOL-ViT: Efficient approach to deal with small Datasets [0.0]
本稿では,ラベルなしデータの強大かつ十分な増大を伴う自己超越が,ニューラルネットワークの第1層を効果的に学習する方法について検討する。
自己教師型アーキテクチャから派生した低レベルの特徴は、この創発的アーキテクチャの堅牢性と全体的な性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-11-08T21:44:31Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - A Framework for Fast Scalable BNN Inference using Googlenet and Transfer
Learning [0.0]
本論文は、リアルタイム性能の良い物体検出の高精度化を目指します。
バイナライズニューラルネットワークは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな視覚タスクで高いパフォーマンスを発揮しています。
その結果,移動学習法により検出された物体の精度は,既存手法と比較して高いことがわかった。
論文 参考訳(メタデータ) (2021-01-04T06:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。