論文の概要: On the Texture Bias for Few-Shot CNN Segmentation
- arxiv url: http://arxiv.org/abs/2003.04052v3
- Date: Wed, 23 Dec 2020 22:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:00:13.042860
- Title: On the Texture Bias for Few-Shot CNN Segmentation
- Title(参考訳): Few-Shot CNNセグメンテーションのためのテクスチャバイアスについて
- Authors: Reza Azad, Abdur R Fayjie, Claude Kauffman, Ismail Ben Ayed, Marco
Pedersoli, Jose Dolz
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するために形状によって駆動される。
最近の証拠は、CNNのテクスチャバイアスが、大きなラベル付きトレーニングデータセットで学習するときに、より高いパフォーマンスのモデルを提供することを示している。
本稿では,特徴空間内の高周波局所成分を減衰させるために,ガウス差分(DoG)の集合を統合する新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 21.349705243254423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the initial belief that Convolutional Neural Networks (CNNs) are
driven by shapes to perform visual recognition tasks, recent evidence suggests
that texture bias in CNNs provides higher performing models when learning on
large labeled training datasets. This contrasts with the perceptual bias in the
human visual cortex, which has a stronger preference towards shape components.
Perceptual differences may explain why CNNs achieve human-level performance
when large labeled datasets are available, but their performance significantly
degrades in lowlabeled data scenarios, such as few-shot semantic segmentation.
To remove the texture bias in the context of few-shot learning, we propose a
novel architecture that integrates a set of Difference of Gaussians (DoG) to
attenuate high-frequency local components in the feature space. This produces a
set of modified feature maps, whose high-frequency components are diminished at
different standard deviation values of the Gaussian distribution in the spatial
domain. As this results in multiple feature maps for a single image, we employ
a bi-directional convolutional long-short-term-memory to efficiently merge the
multi scale-space representations. We perform extensive experiments on three
well-known few-shot segmentation benchmarks -- Pascal i5, COCO-20i and FSS-1000
-- and demonstrate that our method outperforms state-of-the-art approaches in
two datasets under the same conditions. The code is available at:
https://github.com/rezazad68/fewshot-segmentation
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するための形状によって駆動されるという最初の信念にもかかわらず、最近の証拠は、CNNのテクスチャバイアスが大きなラベル付きトレーニングデータセットで学習する際のより高いパフォーマンスモデルを提供することを示している。
これは、人間の視覚野における知覚バイアスとは対照的であり、形状成分に対してより強い嗜好を持つ。
認識上の違いは、CNNが大規模なラベル付きデータセットが利用可能である場合に、人間レベルのパフォーマンスを達成する理由を説明することができる。
少数ショット学習の文脈におけるテクスチャバイアスを取り除くために,gaussian (dog) の差分セットを統合し,特徴空間における高周波局所成分を減衰させる新しいアーキテクチャを提案する。
これにより、空間領域におけるガウス分布の異なる標準偏差値で高周波成分が減少する修正された特徴写像が生成される。
これにより、複数の特徴写像を1つの画像に分割し、双方向の畳み込み長短メモリを用いてマルチスケール空間表現を効率よくマージする。
私たちは、Pascal i5、COCO-20i、FSS-1000の3つの有名なショットセグメンテーションベンチマークで広範な実験を行い、同じ条件下での2つのデータセットにおける最先端のアプローチよりも優れていることを示す。
コードはhttps://github.com/rezazad68/fewshot-segmentationで入手できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Deep ensembles in bioimage segmentation [74.01883650587321]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを提案する。
アンサンブル法では、多くの異なるモデルが訓練され、分類に使用され、アンサンブルは単一分類器の出力を集約する。
提案するアンサンブルは,DeepLabV3+とHarDNet環境を用いて,異なるバックボーンネットワークを組み合わせることで実現されている。
論文 参考訳(メタデータ) (2021-12-24T05:54:21Z) - Learning from Small Samples: Transformation-Invariant SVMs with
Composition and Locality at Multiple Scales [11.210266084524998]
本稿では、畳み込みニューラルネットワーク(CNN)を成功させた、サポートベクターマシン(SVM)に組み込む方法を示す。
論文 参考訳(メタデータ) (2021-09-27T04:02:43Z) - Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation [1.713291434132985]
画像からコンテキスト情報を用いたシーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
このネットワークは、局所的な特徴をグローバルな特徴にマップし、精度を向上し、識別画像領域を強調する。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価した。
論文 参考訳(メタデータ) (2020-09-15T08:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。