論文の概要: How Shift Equivariance Impacts Metric Learning for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2101.05846v1
- Date: Thu, 14 Jan 2021 19:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 00:52:57.241068
- Title: How Shift Equivariance Impacts Metric Learning for Instance Segmentation
- Title(参考訳): シフト等分散がメトリクス学習にどのように影響するか
- Authors: Josef Lorenz Rumberger, Xiaoyan Yu, Peter Hirsch, Melanie Dohmen,
Vanessa Emanuela Guarino, Ashkan Mokarian, Lisa Mais, Jan Funke, Dagmar
Kainmueller
- Abstract要約: 標準のエンコーダ-デコーダネットワークは、最大$fdl$同じに見えるオブジェクトを識別する能力を持っている。
また,タイルとストッチによる不連続を避けるためには,実効的な畳み込みと,トレーニング出力ウィンドウサイズを厳密に$fl$より大きく組み合わせる必要があることを示した。
- 参考スコア(独自算出の注目度): 11.981698445848748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metric learning has received conflicting assessments concerning its
suitability for solving instance segmentation tasks. It has been dismissed as
theoretically flawed due to the shift equivariance of the employed CNNs and
their respective inability to distinguish same-looking objects. Yet it has been
shown to yield state of the art results for a variety of tasks, and practical
issues have mainly been reported in the context of tile-and-stitch approaches,
where discontinuities at tile boundaries have been observed. To date, neither
of the reported issues have undergone thorough formal analysis. In our work, we
contribute a comprehensive formal analysis of the shift equivariance properties
of encoder-decoder-style CNNs, which yields a clear picture of what can and
cannot be achieved with metric learning in the face of same-looking objects. In
particular, we prove that a standard encoder-decoder network that takes
$d$-dimensional images as input, with $l$ pooling layers and pooling factor
$f$, has the capacity to distinguish at most $f^{dl}$ same-looking objects, and
we show that this upper limit can be reached. Furthermore, we show that to
avoid discontinuities in a tile-and-stitch approach, assuming standard batch
size 1, it is necessary to employ valid convolutions in combination with a
training output window size strictly greater than $f^l$, while at test-time it
is necessary to crop tiles to size $n\cdot f^l$ before stitching, with $n\geq
1$. We complement these theoretical findings by discussing a number of
insightful special cases for which we show empirical results on synthetic data.
- Abstract(参考訳): メトリックラーニングは、インスタンスセグメンテーションタスクの解決に適することに関する相反する評価を受けている。
使用済みのcnnのシフト等価性と、それぞれが同一に見えるオブジェクトを識別できないため、理論的に欠陥があるとして却下されている。
しかし, 様々な作業の成果が得られたことが示されており, タイル境界における不連続性が観察されているタイル・アンド・スティッチ・アプローチの文脈において, 実践的な問題が主に報告されている。
これまでのところ、どちらの問題も徹底的な形式分析を行っていない。
本研究では、エンコーダデコーダ型cnnのシフト同分散特性の包括的形式的解析を行い、同一視対象に対してメトリック学習を行うことで何が達成可能で何ができないかを明らかにした。
特に、$d$-dimensionalイメージを入力とする標準的なエンコーダ-デコーダネットワークが、$l$のプーリング層と$f$のプーリング係数を持ち、最大$f^{dl}$の類似オブジェクトを識別する能力を持つことを証明し、この上限が達成可能であることを示す。
さらに,標準的なバッチサイズ1を仮定してタイル・ストッチ方式で不連続を避けるためには,トレーニング出力ウィンドウサイズを厳密にf^l$以上と組み合わせて有効な畳み込みを採用する必要があるが,テスト時にはステッチする前に,タイルサイズを$n\cdot f^l$に設定し,$n\geq 1$で設定する必要がある。
これらの理論的な知見を補うために,合成データを用いた経験的結果を示す洞察に富んだ特別な事例を数多く検討する。
関連論文リスト
- Mitigating covariate shift in non-colocated data with learned parameter priors [0.0]
textitFragmentation-induced co-shift remediation(FIcsR$)は、フラグメントの共変量分布と標準クロスバリデーションベースラインとの$f$-divergenceを最小限にする。
複数のデータクラス、40ドル以上のデータセット、および複数のシーケンス長にわたってバッチ化されたデータに対して、広範な分類実験を行います。
バッチとフォールド・オブ・ザ・アーティファクトに対する精度は、それぞれ5%以上と10%以上向上している。
論文 参考訳(メタデータ) (2024-11-10T15:48:29Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Disentangled Representation Learning with the Gromov-Monge Gap [65.73194652234848]
乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
本稿では,2次最適輸送に基づく非交叉表現学習手法を提案する。
提案手法の有効性を4つの標準ベンチマークで示す。
論文 参考訳(メタデータ) (2024-07-10T16:51:32Z) - QGait: Toward Accurate Quantization for Gait Recognition with Binarized Input [17.017127559393398]
バックプロパゲーション時の円関数の勾配をよりよくシミュレートする,微分可能なソフト量子化器を提案する。
これにより、ネットワークは微妙な入力摂動から学習することができる。
量子化エラーをシミュレートしながら収束を確保するためのトレーニング戦略をさらに洗練する。
論文 参考訳(メタデータ) (2024-05-22T17:34:18Z) - Weakly-Supervised Cross-Domain Segmentation of Electron Microscopy with Sparse Point Annotation [1.124958340749622]
カウント,検出,セグメンテーションタスク間の相関を利用したマルチタスク学習フレームワークを提案する。
ラベル拡張のためのクロスポジションカット・アンド・ペーストを開発し,エントロピーに基づく擬似ラベル選択を行う。
提案手法は, UDA法を著しく上回り, 教師付き手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2024-03-31T12:22:23Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。
次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。
これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文 参考訳(メタデータ) (2022-04-26T15:02:11Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - Measuring Model Fairness under Noisy Covariates: A Theoretical
Perspective [26.704446184314506]
本研究では,雑音情報に基づく機械学習モデルの公平性の測定問題について検討する。
本稿では, 精度の高い公平性評価が可能な弱い条件を特徴付けることを目的とした理論的解析を行う。
論文 参考訳(メタデータ) (2021-05-20T18:36:28Z) - Adversarial Robustness of Supervised Sparse Coding [34.94566482399662]
表現を学習すると同時に、正確な一般化境界と堅牢性証明を与えるモデルを考える。
線形エンコーダと組み合わされたスパーシティプロモーティングエンコーダを組み合わせた仮説クラスに着目した。
エンドツーエンドの分類のための堅牢性証明を提供する。
論文 参考訳(メタデータ) (2020-10-22T22:05:21Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。