論文の概要: RecSal : Deep Recursive Supervision for Visual Saliency Prediction
- arxiv url: http://arxiv.org/abs/2008.13745v1
- Date: Mon, 31 Aug 2020 17:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:53:41.162729
- Title: RecSal : Deep Recursive Supervision for Visual Saliency Prediction
- Title(参考訳): RecSal : ビジュアル・サリエンシ予測のための深部再帰的スーパービジョン
- Authors: Sandeep Mishra, Oindrila Saha
- Abstract要約: 正当性予測データセットを使用して、最終的な正当性マップだけでなく、各刺激についてより多くの情報を作成することができる。
提案手法は,パラメータが50~80%少ない従来の最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.223733768286313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art saliency prediction methods develop upon model architectures
or loss functions; while training to generate one target saliency map. However,
publicly available saliency prediction datasets can be utilized to create more
information for each stimulus than just a final aggregate saliency map. This
information when utilized in a biologically inspired fashion can contribute in
better prediction performance without the use of models with huge number of
parameters. In this light, we propose to extract and use the statistics of (a)
region specific saliency and (b) temporal order of fixations, to provide
additional context to our network. We show that extra supervision using
spatially or temporally sequenced fixations results in achieving better
performance in saliency prediction. Further, we also design novel architectures
for utilizing this extra information and show that it achieves superior
performance over a base model which is devoid of extra supervision. We show
that our best method outperforms previous state-of-the-art methods with 50-80%
fewer parameters. We also show that our models perform consistently well across
all evaluation metrics unlike prior methods.
- Abstract(参考訳): state-of-the-art saliency prediction methodはモデルアーキテクチャや損失関数に基づいて開発される。
しかし、一般に入手可能なサラジェンシー予測データセットは、最終集計サラジェンシーマップよりも、各刺激についてより多くの情報を生成するために利用することができる。
生物学的にインスピレーションを受けたこの情報は、膨大な数のパラメータを持つモデルを用いることなく、予測性能の向上に寄与する。
この光では,統計を抽出し,利用することを提案する。
(a)地域特定給付及び
b) ネットワークに追加のコンテキストを提供するための固定の時間的順序。
また, 空間的あるいは時間的固定による余分な監督が, 塩分予測の性能向上に繋がることを示した。
さらに,この追加情報を活用するための新たなアーキテクチャを設計し,余分な監視を欠いたベースモデルよりも優れた性能を実現することを示す。
提案手法は,パラメータが50~80%少ない従来の最先端手法よりも優れていることを示す。
また,従来の手法と異なり,すべての評価指標において,モデルが一貫した性能を示す。
関連論文リスト
- Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales [10.397502254316645]
二重補正予測のための二相予測手法を提案する。
まず、視覚認識タスクに対して構造化された合理性を提供する新しいデータセットをキュレートする。
第二に,視覚的エビデンスを解消し,局所化する際のモデル案内のための有理形最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:33:39Z) - A positive feedback method based on F-measure value for Salient Object
Detection [1.9249287163937976]
本稿では,SODに対するF値に基づく正のフィードバック手法を提案する。
提案手法は,画像を検出して既存のモデルに入力し,それぞれの予測マップを取得する。
5つの公開データセットに対する実験結果から,提案手法の正のフィードバックは,5つの評価指標において最新の12の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-28T04:05:13Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Confidence Adaptive Anytime Pixel-Level Recognition [86.75784498879354]
任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
我々は,任意のピクセルレベルの認識に対して,最初の統一とエンドツーエンドのモデルアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-01T20:01:57Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Better Fine-Tuning by Reducing Representational Collapse [77.44854918334232]
既存の訓練済み言語モデルに対するアプローチは不安定であることが示されている。
本稿では,従来使用されていた対数目的をパラメトリックノイズに置き換える信頼領域理論に根ざした手法を提案する。
事前学習されたモデルは、微調整されるたびにより一般化可能な表現を維持している。
論文 参考訳(メタデータ) (2020-08-06T02:13:16Z) - SmaAt-UNet: Precipitation Nowcasting using a Small Attention-UNet
Architecture [5.28539620288341]
データ駆動型ニューラルネットワークのアプローチにより,正確な降水量を推定できることが示唆された。
オランダ地域の降水マップとフランスのクラウドカバレッジのバイナリ画像を用いて、実際のデータセットに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2020-07-08T20:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。