論文の概要: Calibrated prediction in and out-of-domain for state-of-the-art saliency
modeling
- arxiv url: http://arxiv.org/abs/2105.12441v2
- Date: Thu, 27 May 2021 15:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 11:34:22.390328
- Title: Calibrated prediction in and out-of-domain for state-of-the-art saliency
modeling
- Title(参考訳): 最新サリエンシーモデリングのための領域内外の校正予測
- Authors: Akis Linardos, Matthias K\"ummerer, Ori Press, Matthias Bethge
- Abstract要約: 我々は、ImageNetのバックボーンを検査する大規模なトランスファー学習を行っている。
DeepGaze IIのVGG19バックボーンをResNet50機能に置き換えることで、サリエンシ予測のパフォーマンスを78%から85%に改善する。
複数のバックボーンを原則的に組み合わせることで、未知のデータセットに対する良好な信頼性キャリブレーションを実現することができることを示す。
- 参考スコア(独自算出の注目度): 17.739797071488212
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Since 2014 transfer learning has become the key driver for the improvement of
spatial saliency prediction; however, with stagnant progress in the last 3-5
years. We conduct a large-scale transfer learning study which tests different
ImageNet backbones, always using the same read out architecture and learning
protocol adopted from DeepGaze II. By replacing the VGG19 backbone of DeepGaze
II with ResNet50 features we improve the performance on saliency prediction
from 78% to 85%. However, as we continue to test better ImageNet models as
backbones (such as EfficientNetB5) we observe no additional improvement on
saliency prediction. By analyzing the backbones further, we find that
generalization to other datasets differs substantially, with models being
consistently overconfident in their fixation predictions. We show that by
combining multiple backbones in a principled manner a good confidence
calibration on unseen datasets can be achieved. This yields a significant leap
in benchmark performance in and out-of-domain with a 15 percent point
improvement over DeepGaze II to 93% on MIT1003, marking a new state of the art
on the MIT/Tuebingen Saliency Benchmark in all available metrics (AUC: 88.3%,
sAUC: 79.4%, CC: 82.4%).
- Abstract(参考訳): 2014年以降、トランスファーラーニングは空間塩分濃度予測の改善の鍵となっているが、過去3~5年間の進歩は停滞している。
我々は,deepgaze ii から採用した同じ readout architecture と learning protocol を使用して,さまざまなimagenet バックボーンをテストする大規模転送学習研究を行っている。
DeepGaze IIのVGG19バックボーンをResNet50機能に置き換えることで、サリエンシ予測のパフォーマンスを78%から85%に改善する。
しかし、より優れたImageNetモデルをバックボーンとして(例えばEfficientNetB5)テストし続けるにつれて、サリエンシ予測のさらなる改善は見られません。
バックボーンを解析することで、他のデータセットへの一般化は大幅に異なり、モデルはその固定予測において常に過信されていることが分かる。
複数のバックボーンを原則的に組み合わせることで、未発見のデータセットに対する十分な信頼性のキャリブレーションが可能になることを示す。
これにより、DeepGaze IIよりも15%改善され、MIT1003では93%に向上し、すべての利用可能なメトリクス(AUC:88.3%、sAUC:79.4%、CC:82.4%)でMIT/Tuebingen Saliency Benchmarkの新たな技術状況が記録された。
関連論文リスト
- An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation [0.799543372823325]
セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
論文 参考訳(メタデータ) (2024-09-14T21:01:49Z) - Improved Adaboost Algorithm for Web Advertisement Click Prediction Based on Long Short-Term Memory Networks [2.7959678888027906]
本稿では,Long Short-Term Memory Networks (LSTM) に基づくAdaboostアルゴリズムの改良について検討する。
いくつかの一般的な機械学習アルゴリズムと比較することにより、広告クリック予測における新しいモデルの利点を分析する。
提案手法は,ユーザの広告クリック予測において92%の精度で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-08-08T03:27:02Z) - Exploiting CNNs for Semantic Segmentation with Pascal VOC [0.0]
本稿では,Pascal VOCデータセットを用いたセマンティックセグメンテーションに関する総合的研究を行う。
まずFCN(Fully Convolution Network)ベースラインを使用し、71.31%の精度と0.0527の平均IoUを実現した。
パフォーマンスと動作を分析し、その後、ベースラインにおける問題に3つの改善を加えて対処します。
論文 参考訳(メタデータ) (2023-04-26T00:40:27Z) - Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Revisiting Batch Normalization for Improving Corruption Robustness [85.20742045853738]
モデルロバスト性を改善するために, モデルロバスト性を改善するために, バッチ正規化統計の修正を提案する。
モデルを再トレーニングすることなく、BN統計をいくつかの表現サンプル上で単純に推定し、適応させることで、大きなマージンによる腐敗の堅牢性を向上させることが判明した。
論文 参考訳(メタデータ) (2020-10-07T19:56:47Z) - Compounding the Performance Improvements of Assembled Techniques in a
Convolutional Neural Network [6.938261599173859]
基本CNNモデルの精度とロバスト性を改善する方法について述べる。
提案したResNet-50は、トップ1の精度を76.3%から82.78%、mCEを76.0%から48.9%、mFRを57.7%から32.3%に改善した。
CVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T12:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。