論文の概要: Generalizing Interactive Backpropagating Refinement for Dense Prediction
- arxiv url: http://arxiv.org/abs/2112.10969v2
- Date: Wed, 22 Dec 2021 11:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 12:37:32.508631
- Title: Generalizing Interactive Backpropagating Refinement for Dense Prediction
- Title(参考訳): ディエンス予測のための対話型バックプロパゲーションの一般化
- Authors: Fanqing Lin, Brian Price, Tony Martinez
- Abstract要約: 本稿では,G-BRSレイヤの集合を導入し,グローバル・ローカライズド・リファインメントとローカライズド・リファインメントの両立を可能にした。
提案手法は,数クリックで既存の事前訓練された最先端モデルの性能を向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep neural networks become the state-of-the-art approach in the field of
computer vision for dense prediction tasks, many methods have been developed
for automatic estimation of the target outputs given the visual inputs.
Although the estimation accuracy of the proposed automatic methods continues to
improve, interactive refinement is oftentimes necessary for further correction.
Recently, feature backpropagating refinement scheme (f-BRS) has been proposed
for the task of interactive segmentation, which enables efficient optimization
of a small set of auxiliary variables inserted into the pretrained network to
produce object segmentation that better aligns with user inputs. However, the
proposed auxiliary variables only contain channel-wise scale and bias, limiting
the optimization to global refinement only. In this work, in order to
generalize backpropagating refinement for a wide range of dense prediction
tasks, we introduce a set of G-BRS (Generalized Backpropagating Refinement
Scheme) layers that enable both global and localized refinement for the
following tasks: interactive segmentation, semantic segmentation, image matting
and monocular depth estimation. Experiments on SBD, Cityscapes, Mapillary
Vista, Composition-1k and NYU-Depth-V2 show that our method can successfully
generalize and significantly improve performance of existing pretrained
state-of-the-art models with only a few clicks.
- Abstract(参考訳): ディープニューラルネットワークがコンピュータビジョンの密集した予測タスクの分野で最先端のアプローチとなるにつれて、視覚入力からターゲット出力を自動的に推定する手法が数多く開発されている。
提案手法の精度は改善され続けているが,さらなる修正には対話的精細化がしばしば必要である。
近年,対話型セグメンテーションにおいて,事前学習ネットワークに挿入された補助変数の小さなセットを効率よく最適化し,ユーザ入力に適合したオブジェクトセグメンテーションを実現するための機能バックプロパゲーション改善スキーム (f-BRS) が提案されている。
しかし,提案する補助変数はチャネル単位のスケールとバイアスのみを含み,最適化はグローバルリファインメントのみに制限される。
本研究は,多種多様な密接な予測タスクのバックプロパゲーション改善を一般化するために,対話的セグメンテーション,セマンティックセグメンテーション,画像マッチング,モノクロ深度推定という,グローバルおよびローカライズされた各タスクの洗練を可能にするG-BRS(Generalized Backproagating Refinement Scheme)層を導入する。
SBD,Cityscapes,Mapillary Vista,Compose-1k,NYU-Depth-V2の実験結果から,既存の事前学習モデルの性能を数クリックで向上できることが示された。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - ConvPoseCNN2: Prediction and Refinement of Dense 6D Object Poses [23.348510362258402]
本稿では,オブジェクトの翻訳と向きを密に予測するPoseCNN法の完全畳み込み拡張を提案する。
これは、方向予測の空間分解能を改善するなど、いくつかの利点がある。
提案手法は,YCB-Videoデータセットにおいて,PoseCNNと同じ精度で実現可能であることを示す。
論文 参考訳(メタデータ) (2022-05-23T08:32:09Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Unsupervised learning of disentangled representations in deep restricted
kernel machines with orthogonality constraints [15.296955630621566]
Constr-DRKMは、非教師なしデータ表現の学習のためのディープカーネル手法である。
本研究では,不整合特徴学習における提案手法の有効性を定量的に評価する。
論文 参考訳(メタデータ) (2020-11-25T11:40:10Z) - Regularizing Deep Networks with Semantic Data Augmentation [44.53483945155832]
従来の手法を補完する新しい意味データ拡張アルゴリズムを提案する。
提案手法はディープネットワークが線形化特徴の学習に有効であるという興味深い性質に着想を得たものである。
提案した暗黙的セマンティックデータ拡張(ISDA)アルゴリズムは,新たなロバストCE損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-07-21T00:32:44Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。