論文の概要: Confidence Adaptive Anytime Pixel-Level Recognition
- arxiv url: http://arxiv.org/abs/2104.00749v1
- Date: Thu, 1 Apr 2021 20:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:03:01.199047
- Title: Confidence Adaptive Anytime Pixel-Level Recognition
- Title(参考訳): 信頼度適応型時間画素レベル認識
- Authors: Zhuang Liu, Trevor Darrell, Evan Shelhamer
- Abstract要約: 任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
我々は,任意のピクセルレベルの認識に対して,最初の統一とエンドツーエンドのモデルアプローチを提案する。
- 参考スコア(独自算出の注目度): 86.75784498879354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anytime inference requires a model to make a progression of predictions which
might be halted at any time. Prior research on anytime visual recognition has
mostly focused on image classification. We propose the first unified and
end-to-end model approach for anytime pixel-level recognition. A cascade of
"exits" is attached to the model to make multiple predictions and direct
further computation. We redesign the exits to account for the depth and spatial
resolution of the features for each exit. To reduce total computation, and make
full use of prior predictions, we develop a novel spatially adaptive approach
to avoid further computation on regions where early predictions are already
sufficiently confident. Our full model with redesigned exit architecture and
spatial adaptivity enables anytime inference, achieves the same level of final
accuracy, and even significantly reduces total computation. We evaluate our
approach on semantic segmentation and human pose estimation. On Cityscapes
semantic segmentation and MPII human pose estimation, our approach enables
anytime inference while also reducing the total FLOPs of its base models by
44.4% and 59.1% without sacrificing accuracy. As a new anytime baseline, we
measure the anytime capability of deep equilibrium networks, a recent class of
model that is intrinsically iterative, and we show that the
accuracy-computation curve of our architecture strictly dominates it.
- Abstract(参考訳): 任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
常に視覚認識に関するこれまでの研究は、主に画像分類に焦点が当てられている。
我々は,任意のピクセルレベル認識のための最初の統一・エンドツーエンドモデルアプローチを提案する。
複数の予測を行い、さらなる計算を行うために、モデルに"exits"のカスケードが付加される。
各出口の特徴の深さと空間分解能を考慮に入れた出口を再設計する。
計算量を削減し,事前予測をフル活用するために,早期予測が十分に確実な領域でのさらなる計算を回避するために,空間適応型アプローチを開発した。
再設計された出口アーキテクチャと空間適応性を備えた全モデルにより、任意の時間推定が可能となり、同じレベルの最終的な精度を達成でき、さらに計算総量を大幅に削減できる。
セマンティックセグメンテーションと人間のポーズ推定におけるアプローチを評価する。
CityscapesのセマンティックセグメンテーションとMPIIの人間のポーズ推定では、精度を犠牲にすることなく、ベースモデルのFLOPを44.4%、59.1%削減できる。
新しいanytimeベースラインとして、本質的に反復的な最近のモデルであるdeep equilibrium networkのanytime能力を測定し、我々のアーキテクチャの精度計算曲線がそれを厳密に支配していることを示す。
関連論文リスト
- Temporal Generalization Estimation in Evolving Graphs [35.859484484574956]
グラフニューラルネットワーク(GNN)は広い分野に広くデプロイされているが、グラフが進化するにつれて正確な表現を維持するのに苦労することが多い。
理論的には下界を確立し、穏やかな条件下では、表現歪みが時間の経過とともに必然的に起こることを証明した。
本稿では,自己教師付きグラフ再構成による適応的特徴抽出器によって強化された,単純で効果的なベースラインであるSmartを紹介する。
論文 参考訳(メタデータ) (2024-04-07T14:19:22Z) - Towards Anytime Classification in Early-Exit Architectures by Enforcing
Conditional Monotonicity [5.425028186820756]
任意のアルゴリズムは、計算予算が動的である環境に適しています。
現在のアーリーエグジットネットワークは、任意の設定に直接適用できないことを示す。
本稿では,製品・オブ・エグゼクティブ(Product-of-Experts)に基づくエレガントなポストホック修正を提案する。
論文 参考訳(メタデータ) (2023-06-05T07:38:13Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Adaptive Sparse Gaussian Process [0.0]
これらの問題に対処できる最初の適応スパースガウスプロセス(GP)を提案する。
まず,変分スパースGPアルゴリズムを変形係数によって適応的に再構成する。
そこで我々は,新しいサンプルが到着するたびに,スパースGPモデルの単一誘導点と残りのモデルパラメータを同時に更新することを提案する。
論文 参考訳(メタデータ) (2023-02-20T21:34:36Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - RecSal : Deep Recursive Supervision for Visual Saliency Prediction [2.223733768286313]
正当性予測データセットを使用して、最終的な正当性マップだけでなく、各刺激についてより多くの情報を作成することができる。
提案手法は,パラメータが50~80%少ない従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-31T17:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。