論文の概要: Tidying Deep Saliency Prediction Architectures
- arxiv url: http://arxiv.org/abs/2003.04942v1
- Date: Tue, 10 Mar 2020 19:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:30:56.413822
- Title: Tidying Deep Saliency Prediction Architectures
- Title(参考訳): 深海塩分予測アーキテクチャ
- Authors: Navyasri Reddy, Samyak Jain, Pradeep Yarlagadda, Vineet Gandhi
- Abstract要約: 本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 6.613005108411055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning computational models for visual attention (saliency estimation) is
an effort to inch machines/robots closer to human visual cognitive abilities.
Data-driven efforts have dominated the landscape since the introduction of deep
neural network architectures. In deep learning research, the choices in
architecture design are often empirical and frequently lead to more complex
models than necessary. The complexity, in turn, hinders the application
requirements. In this paper, we identify four key components of saliency
models, i.e., input features, multi-level integration, readout architecture,
and loss functions. We review the existing state of the art models on these
four components and propose novel and simpler alternatives. As a result, we
propose two novel end-to-end architectures called SimpleNet and MDNSal, which
are neater, minimal, more interpretable and achieve state of the art
performance on public saliency benchmarks. SimpleNet is an optimized
encoder-decoder architecture and brings notable performance gains on the
SALICON dataset (the largest saliency benchmark). MDNSal is a parametric model
that directly predicts parameters of a GMM distribution and is aimed to bring
more interpretability to the prediction maps. The proposed saliency models can
be inferred at 25fps, making them suitable for real-time applications. Code and
pre-trained models are available at https://github.com/samyak0210/saliency.
- Abstract(参考訳): 視覚注意のための計算モデル(サリエンシー推定)の学習は、機械やロボットを人間の視覚認知能力に近づける努力である。
データ駆動の取り組みは、ディープニューラルネットワークアーキテクチャの導入以来、ランドスケープを支配してきた。
ディープラーニングの研究において、アーキテクチャ設計の選択はしばしば経験的であり、必要以上に複雑なモデルにつながる。
複雑さはアプリケーションの要求を妨げます。
本稿では,saliencyモデルの4つのキーコンポーネント,すなわち入力機能,マルチレベル統合,読み出しアーキテクチャ,損失関数について述べる。
これら4つの構成要素について,既存の技術モデルについて概観し,新しい,よりシンプルな代替案を提案する。
そこで,本稿では,simplenet と mdnsal という2つの新しいエンド・ツー・エンドのアーキテクチャを提案する。
SimpleNetは最適化されたエンコーダ-デコーダアーキテクチャであり、SALICONデータセット(最大の唾液度ベンチマーク)で顕著なパフォーマンス向上をもたらす。
MDNSalは、GMM分布のパラメータを直接予測するパラメトリックモデルであり、予測マップにさらなる解釈可能性をもたらすことを目的としている。
提案した精度モデルは25fpsで推定でき、リアルタイムアプリケーションに適している。
コードと事前トレーニングされたモデルはhttps://github.com/samyak0210/saliencyで利用可能である。
関連論文リスト
- Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (2024-08-15T16:41:55Z) - Multi-conditioned Graph Diffusion for Neural Architecture Search [8.290336491323796]
本稿では、離散的な条件付きグラフ拡散プロセスを用いて、高性能ニューラルネットワークアーキテクチャを生成するグラフ拡散に基づくNAS手法を提案する。
6つの標準ベンチマークで有望な結果を示し、新しいアーキテクチャとユニークなアーキテクチャを高速に実現します。
論文 参考訳(メタデータ) (2024-03-09T21:45:31Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Convolution Neural Network Hyperparameter Optimization Using Simplified
Swarm Optimization [2.322689362836168]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
パフォーマンスが向上したネットワークアーキテクチャを見つけるのは容易ではない。
論文 参考訳(メタデータ) (2021-03-06T00:23:27Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Computation on Sparse Neural Networks: an Inspiration for Future
Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。
本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。
実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。