論文の概要: FastSal: a Computationally Efficient Network for Visual Saliency
Prediction
- arxiv url: http://arxiv.org/abs/2008.11151v1
- Date: Tue, 25 Aug 2020 16:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:16:46.813292
- Title: FastSal: a Computationally Efficient Network for Visual Saliency
Prediction
- Title(参考訳): FastSal: ビジュアルサリエンシ予測のための計算効率の良いネットワーク
- Authors: Feiyan Hu and Kevin McGuinness
- Abstract要約: 我々は、MobileNetV2が視覚的サリエンシモデルに優れたバックボーンを作り、複雑なデコーダを使わずに有効であることを示す。
また,DeepGaze IIのような計算コストの高いモデルからの知識伝達は,ラベルのないデータセットを擬似ラベリングすることで実現できることを示す。
- 参考スコア(独自算出の注目度): 7.742198347952173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the problem of visual saliency prediction, predicting
regions of an image that tend to attract human visual attention, under a
constrained computational budget. We modify and test various recent efficient
convolutional neural network architectures like EfficientNet and MobileNetV2
and compare them with existing state-of-the-art saliency models such as SalGAN
and DeepGaze II both in terms of standard accuracy metrics like AUC and NSS,
and in terms of the computational complexity and model size. We find that
MobileNetV2 makes an excellent backbone for a visual saliency model and can be
effective even without a complex decoder. We also show that knowledge transfer
from a more computationally expensive model like DeepGaze II can be achieved
via pseudo-labelling an unlabelled dataset, and that this approach gives result
on-par with many state-of-the-art algorithms with a fraction of the
computational cost and model size. Source code is available at
https://github.com/feiyanhu/FastSal.
- Abstract(参考訳): 本稿では,人間の視覚に注意を惹きつける傾向のある画像の領域を計算予算の制約下で予測し,視覚的なサリエンシー予測の問題に焦点をあてる。
我々は、EfficientNetやMobileNetV2のような最近の効率的な畳み込みニューラルネットワークアーキテクチャを修正、テストし、それらを、AUCやNASのような標準的な精度メトリクスと、計算複雑性とモデルサイズの両方の観点から、SalGANやDeepGaze IIのような既存の最先端サリエンシモデルと比較する。
mobilenetv2は視覚的なサリエンシーモデルにとって優れたバックボーンであり、複雑なデコーダがなくても効果的である。
また、deepgaze iiのような計算コストの高いモデルからの知識転送は、ラベル付きデータセットを擬似ラベル付けすることで実現可能であり、このアプローチにより、計算コストとモデルサイズのごく一部しか持たない多くの最先端アルゴリズムとほぼ同程度の結果が得られることを示した。
ソースコードはhttps://github.com/feiyanhu/fastsalで入手できる。
関連論文リスト
- EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - MultiScale MeshGraphNets [65.26373813797409]
我々はMeshGraphNetsからフレームワークを改善するための2つの補完的なアプローチを提案する。
まず、より粗いメッシュ上で高解像度システムの正確なサロゲートダイナミクスを学習できることを実証する。
次に、2つの異なる解像度でメッセージを渡す階層的アプローチ(MultiScale MeshGraphNets)を導入する。
論文 参考訳(メタデータ) (2022-10-02T20:16:20Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks [0.17499351967216337]
機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
論文 参考訳(メタデータ) (2020-12-01T01:42:23Z) - Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification [46.885260723836865]
ディープ畳み込みニューラルネットワーク (Deep Convolutional Neural Network, CNN) は、高解像度画像で処理することで一般的に改善される。
画像中のすべての領域がタスク関連であるとは限らないという事実に着想を得て,効率的な画像分類を行う新しいフレームワークを提案する。
我々のフレームワークは、最先端の軽量CNNの多くと互換性があり、汎用的で柔軟です。
論文 参考訳(メタデータ) (2020-10-11T17:55:06Z) - Computation on Sparse Neural Networks: an Inspiration for Future
Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。
本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。
実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:13:50Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。