論文の概要: How Shift Equivariance Impacts Metric Learning for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2101.05846v1
- Date: Thu, 14 Jan 2021 19:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 00:52:57.241068
- Title: How Shift Equivariance Impacts Metric Learning for Instance Segmentation
- Title(参考訳): シフト等分散がメトリクス学習にどのように影響するか
- Authors: Josef Lorenz Rumberger, Xiaoyan Yu, Peter Hirsch, Melanie Dohmen,
Vanessa Emanuela Guarino, Ashkan Mokarian, Lisa Mais, Jan Funke, Dagmar
Kainmueller
- Abstract要約: 標準のエンコーダ-デコーダネットワークは、最大$fdl$同じに見えるオブジェクトを識別する能力を持っている。
また,タイルとストッチによる不連続を避けるためには,実効的な畳み込みと,トレーニング出力ウィンドウサイズを厳密に$fl$より大きく組み合わせる必要があることを示した。
- 参考スコア(独自算出の注目度): 11.981698445848748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metric learning has received conflicting assessments concerning its
suitability for solving instance segmentation tasks. It has been dismissed as
theoretically flawed due to the shift equivariance of the employed CNNs and
their respective inability to distinguish same-looking objects. Yet it has been
shown to yield state of the art results for a variety of tasks, and practical
issues have mainly been reported in the context of tile-and-stitch approaches,
where discontinuities at tile boundaries have been observed. To date, neither
of the reported issues have undergone thorough formal analysis. In our work, we
contribute a comprehensive formal analysis of the shift equivariance properties
of encoder-decoder-style CNNs, which yields a clear picture of what can and
cannot be achieved with metric learning in the face of same-looking objects. In
particular, we prove that a standard encoder-decoder network that takes
$d$-dimensional images as input, with $l$ pooling layers and pooling factor
$f$, has the capacity to distinguish at most $f^{dl}$ same-looking objects, and
we show that this upper limit can be reached. Furthermore, we show that to
avoid discontinuities in a tile-and-stitch approach, assuming standard batch
size 1, it is necessary to employ valid convolutions in combination with a
training output window size strictly greater than $f^l$, while at test-time it
is necessary to crop tiles to size $n\cdot f^l$ before stitching, with $n\geq
1$. We complement these theoretical findings by discussing a number of
insightful special cases for which we show empirical results on synthetic data.
- Abstract(参考訳): メトリックラーニングは、インスタンスセグメンテーションタスクの解決に適することに関する相反する評価を受けている。
使用済みのcnnのシフト等価性と、それぞれが同一に見えるオブジェクトを識別できないため、理論的に欠陥があるとして却下されている。
しかし, 様々な作業の成果が得られたことが示されており, タイル境界における不連続性が観察されているタイル・アンド・スティッチ・アプローチの文脈において, 実践的な問題が主に報告されている。
これまでのところ、どちらの問題も徹底的な形式分析を行っていない。
本研究では、エンコーダデコーダ型cnnのシフト同分散特性の包括的形式的解析を行い、同一視対象に対してメトリック学習を行うことで何が達成可能で何ができないかを明らかにした。
特に、$d$-dimensionalイメージを入力とする標準的なエンコーダ-デコーダネットワークが、$l$のプーリング層と$f$のプーリング係数を持ち、最大$f^{dl}$の類似オブジェクトを識別する能力を持つことを証明し、この上限が達成可能であることを示す。
さらに,標準的なバッチサイズ1を仮定してタイル・ストッチ方式で不連続を避けるためには,トレーニング出力ウィンドウサイズを厳密にf^l$以上と組み合わせて有効な畳み込みを採用する必要があるが,テスト時にはステッチする前に,タイルサイズを$n\cdot f^l$に設定し,$n\geq 1$で設定する必要がある。
これらの理論的な知見を補うために,合成データを用いた経験的結果を示す洞察に富んだ特別な事例を数多く検討する。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - QGait: Toward Accurate Quantization for Gait Recognition with Binarized Input [17.017127559393398]
バックプロパゲーション時の円関数の勾配をよりよくシミュレートする,微分可能なソフト量子化器を提案する。
これにより、ネットワークは微妙な入力摂動から学習することができる。
量子化エラーをシミュレートしながら収束を確保するためのトレーニング戦略をさらに洗練する。
論文 参考訳(メタデータ) (2024-05-22T17:34:18Z) - Weakly-Supervised Cross-Domain Segmentation of Electron Microscopy with Sparse Point Annotation [1.124958340749622]
カウント,検出,セグメンテーションタスク間の相関を利用したマルチタスク学習フレームワークを提案する。
ラベル拡張のためのクロスポジションカット・アンド・ペーストを開発し,エントロピーに基づく擬似ラベル選択を行う。
提案手法は, UDA法を著しく上回り, 教師付き手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2024-03-31T12:22:23Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。
次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。
これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文 参考訳(メタデータ) (2022-04-26T15:02:11Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Measuring Model Fairness under Noisy Covariates: A Theoretical
Perspective [26.704446184314506]
本研究では,雑音情報に基づく機械学習モデルの公平性の測定問題について検討する。
本稿では, 精度の高い公平性評価が可能な弱い条件を特徴付けることを目的とした理論的解析を行う。
論文 参考訳(メタデータ) (2021-05-20T18:36:28Z) - Robust Classification Under $\ell_0$ Attack for the Gaussian Mixture
Model [39.414875342234204]
フィルタとトランケーションの2つの主要モジュールを持つFilTrunと呼ばれる新しい分類アルゴリズムを開発した。
敵対的摂動の効果が完全に中和できるかどうかを判断する敵対的予算の段階遷移など、興味深い行動を示すいくつかの例を議論する。
論文 参考訳(メタデータ) (2021-04-05T23:31:25Z) - Adversarial Robustness of Supervised Sparse Coding [34.94566482399662]
表現を学習すると同時に、正確な一般化境界と堅牢性証明を与えるモデルを考える。
線形エンコーダと組み合わされたスパーシティプロモーティングエンコーダを組み合わせた仮説クラスに着目した。
エンドツーエンドの分類のための堅牢性証明を提供する。
論文 参考訳(メタデータ) (2020-10-22T22:05:21Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。