論文の概要: Tidying Deep Saliency Prediction Architectures
- arxiv url: http://arxiv.org/abs/2003.04942v1
- Date: Tue, 10 Mar 2020 19:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:30:56.413822
- Title: Tidying Deep Saliency Prediction Architectures
- Title(参考訳): 深海塩分予測アーキテクチャ
- Authors: Navyasri Reddy, Samyak Jain, Pradeep Yarlagadda, Vineet Gandhi
- Abstract要約: 本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 6.613005108411055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning computational models for visual attention (saliency estimation) is
an effort to inch machines/robots closer to human visual cognitive abilities.
Data-driven efforts have dominated the landscape since the introduction of deep
neural network architectures. In deep learning research, the choices in
architecture design are often empirical and frequently lead to more complex
models than necessary. The complexity, in turn, hinders the application
requirements. In this paper, we identify four key components of saliency
models, i.e., input features, multi-level integration, readout architecture,
and loss functions. We review the existing state of the art models on these
four components and propose novel and simpler alternatives. As a result, we
propose two novel end-to-end architectures called SimpleNet and MDNSal, which
are neater, minimal, more interpretable and achieve state of the art
performance on public saliency benchmarks. SimpleNet is an optimized
encoder-decoder architecture and brings notable performance gains on the
SALICON dataset (the largest saliency benchmark). MDNSal is a parametric model
that directly predicts parameters of a GMM distribution and is aimed to bring
more interpretability to the prediction maps. The proposed saliency models can
be inferred at 25fps, making them suitable for real-time applications. Code and
pre-trained models are available at https://github.com/samyak0210/saliency.
- Abstract(参考訳): 視覚注意のための計算モデル(サリエンシー推定)の学習は、機械やロボットを人間の視覚認知能力に近づける努力である。
データ駆動の取り組みは、ディープニューラルネットワークアーキテクチャの導入以来、ランドスケープを支配してきた。
ディープラーニングの研究において、アーキテクチャ設計の選択はしばしば経験的であり、必要以上に複雑なモデルにつながる。
複雑さはアプリケーションの要求を妨げます。
本稿では,saliencyモデルの4つのキーコンポーネント,すなわち入力機能,マルチレベル統合,読み出しアーキテクチャ,損失関数について述べる。
これら4つの構成要素について,既存の技術モデルについて概観し,新しい,よりシンプルな代替案を提案する。
そこで,本稿では,simplenet と mdnsal という2つの新しいエンド・ツー・エンドのアーキテクチャを提案する。
SimpleNetは最適化されたエンコーダ-デコーダアーキテクチャであり、SALICONデータセット(最大の唾液度ベンチマーク)で顕著なパフォーマンス向上をもたらす。
MDNSalは、GMM分布のパラメータを直接予測するパラメトリックモデルであり、予測マップにさらなる解釈可能性をもたらすことを目的としている。
提案した精度モデルは25fpsで推定でき、リアルタイムアプリケーションに適している。
コードと事前トレーニングされたモデルはhttps://github.com/samyak0210/saliencyで利用可能である。
関連論文リスト
- Multi-conditioned Graph Diffusion for Neural Architecture Search [8.894253962956366]
本稿では、離散的な条件付きグラフ拡散プロセスを用いて、高性能ニューラルネットワークアーキテクチャを生成するグラフ拡散に基づくNAS手法を提案する。
6つの標準ベンチマークで有望な結果を示し、新しいアーキテクチャとユニークなアーキテクチャを高速に実現します。
論文 参考訳(メタデータ) (2024-03-09T21:45:31Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Convolution Neural Network Hyperparameter Optimization Using Simplified
Swarm Optimization [2.322689362836168]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
パフォーマンスが向上したネットワークアーキテクチャを見つけるのは容易ではない。
論文 参考訳(メタデータ) (2021-03-06T00:23:27Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Computation on Sparse Neural Networks: an Inspiration for Future
Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。
本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。
実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。