論文の概要: Visual Attention: Deep Rare Features
- arxiv url: http://arxiv.org/abs/2005.12073v1
- Date: Mon, 25 May 2020 12:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:47:03.728931
- Title: Visual Attention: Deep Rare Features
- Title(参考訳): Visual Attention:Deep Rareの機能
- Authors: Matei Mancas, Phutphalla Kong, Bernard Gosselin
- Abstract要約: 本稿では,DeepRare 2019という,Deep Learningのパワーと特徴工学アルゴリズムの汎用性を利用したモデルを提案する。
DR1)はトレーニングを一切必要とせず、2) CPU上のイメージ1枚につき1秒未満で、3) 非常に異なる3つのアイトラッキングデータセットに対するテストでは、DRはジェネリックで、すべてのデータセットとメトリクスのトップ3モデルに常に存在することが示されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human visual system is modeled in engineering field providing
feature-engineered methods which detect contrasted/surprising/unusual data into
images. This data is "interesting" for humans and leads to numerous
applications. Deep learning (DNNs) drastically improved the algorithms
efficiency on the main benchmark datasets. However, DNN-based models are
counter-intuitive: surprising or unusual data is by definition difficult to
learn because of its low occurrence probability. In reality, DNNs models mainly
learn top-down features such as faces, text, people, or animals which usually
attract human attention, but they have low efficiency in extracting surprising
or unusual data in the images. In this paper, we propose a model called
DeepRare2019 (DR) which uses the power of DNNs feature extraction and the
genericity of feature-engineered algorithms. DR 1) does not need any training,
2) it takes less than a second per image on CPU only and 3) our tests on three
very different eye-tracking datasets show that DR is generic and is always in
the top-3 models on all datasets and metrics while no other model exhibits such
a regularity and genericity. DeepRare2019 code can be found at
https://github.com/numediart/VisualAttention-RareFamily
- Abstract(参考訳): 人間の視覚システムは、画像へのコントラスト付き/サプライズ/unusualなデータを検出する特徴工学的手法を提供する工学領域でモデル化されている。
このデータは人間にとって「興味深い」ものであり、多くの応用をもたらす。
ディープラーニング(DNN)は、主要なベンチマークデータセットのアルゴリズム効率を大幅に改善した。
しかし、dnnベースのモデルは直観に反する:驚きまたは異常なデータは、その発生確率が低いため、定義上は学習が困難である。
実際には、dnnsモデルは主に人間の注意を引く顔、テキスト、人、動物といったトップダウンの特徴を学習するが、画像内の驚くべきデータや異常なデータを抽出する効率は低い。
本稿では,DNNの特徴抽出と特徴工学アルゴリズムの汎用性を利用したDeepRare2019(DR)モデルを提案する。
DR
1)トレーニングは必要ありません。
2) CPU上のイメージ1枚につき1秒未満で、
3) 3つの非常に異なるアイトラッキングデータセットに対するテストでは、DRはジェネリックであり、すべてのデータセットやメトリクスの上位3モデルに常に含まれています。
DeepRare2019コードはhttps://github.com/numediart/VisualAttention-RareFamilyで見ることができる。
関連論文リスト
- Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image [80.48452783328995]
Flash3Dは、1つの画像からシーン再構成と新しいビュー合成を行う方法である。
一般性については、単分子深度推定のための「基礎」モデルから始める。
効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - rTsfNet: a DNN model with Multi-head 3D Rotation and Time Series Feature
Extraction for IMU-based Human Activity Recognition [0.7605563562103568]
本稿では,IMUに基づくヒューマンアクティビティ認識(HAR)のための新しいディープラーニングモデルであるrTsfNetを提案する。
rTsfNetはCNNを使用しないモデルであり、十分に管理されたベンチマーク条件下で既存のモデルよりも高い精度を達成した。
論文 参考訳(メタデータ) (2023-10-30T05:51:50Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - DeepRare: Generic Unsupervised Visual Attention Models [0.0]
ディープラーニング(DNN)は、主要なベンチマークデータセットのアルゴリズム効率を大幅に改善した。
DNNベースのモデルは直感に反するものであり、その発生確率が低いため、驚きや異常なデータは学習が困難である。
本稿では,DNNの機能抽出と特徴工学アルゴリズムの汎用性を利用したDeepRare 2021 (DR21) と呼ばれる新しい視覚的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-09-23T15:28:43Z) - Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data
Augmentation and Deep Ensemble Learning [2.1446056201053185]
我々は最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案し、データ拡張と深層アンサンブル学習の利点も評価した。
年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点の脳解剖学的MRIデータセットを用いて実験を行った。
その結果,VBM画像の予測精度は擬似RAWデータよりも有意に向上した。
DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータレシエーションのパフォーマンスにおいて優れた妥協を提供する。
論文 参考訳(メタデータ) (2021-06-02T13:00:35Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Rethinking Recurrent Neural Networks and Other Improvements for Image
Classification [1.5990720051907859]
画像認識モデルの設計において,RNNを付加層として統合することを提案する。
また、複数のモデルを用いて専門家による予測を生成するエンド・ツー・エンドのマルチモデルアンサンブルも開発している。
私たちのモデルは、Surreyデータセットに新しいレコードを設定します。
論文 参考訳(メタデータ) (2020-07-30T00:40:50Z) - Emotion Recognition on large video dataset based on Convolutional
Feature Extractor and Recurrent Neural Network [0.2855485723554975]
我々のモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて、ビデオデータ上での次元的感情を予測する。
実験は、最新のAff-Wild2データベースを含む、公開データセットで実施されている。
論文 参考訳(メタデータ) (2020-06-19T14:54:13Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。