論文の概要: On the Influence of Shape, Texture and Color for Learning Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2410.14878v1
- Date: Fri, 18 Oct 2024 21:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:56.837110
- Title: On the Influence of Shape, Texture and Color for Learning Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーション学習における形状, テクスチャ, 色彩の影響について
- Authors: Annika Mütze, Natalie Grabowsky, Edgar Heinert, Matthias Rottmann, Hanno Gottschalk,
- Abstract要約: 近年では、画像分類のための既成の深層ニューラルネットワーク(DNN)の形状とテクスチャバイアスを研究する一連の研究が生まれている。
我々はこれらの疑問をセマンティックセグメンテーション(セマンティックセグメンテーション)で研究し、ピクセルレベルでの質問に対処する。
3つのデータセットについて検討した結果, テクスチャや形状が学習の成功を左右しないが, 形状と色の組み合わせは異なるが, テクスチャなしでは驚くほど強い結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 5.172964916120902
- License:
- Abstract: In recent years, a body of works has emerged, studying shape and texture biases of off-the-shelf pre-trained deep neural networks (DNN) for image classification. These works study how much a trained DNN relies on image cues, predominantly shape and texture. In this work, we switch the perspective, posing the following questions: What can a DNN learn from each of the image cues, i.e., shape, texture and color, respectively? How much does each cue influence the learning success? And what are the synergy effects between different cues? Studying these questions sheds light upon cue influences on learning and thus the learning capabilities of DNNs. We study these questions on semantic segmentation which allows us to address our questions on pixel level. To conduct this study, we develop a generic procedure to decompose a given dataset into multiple ones, each of them only containing either a single cue or a chosen mixture. This framework is then applied to two real-world datasets, Cityscapes and PASCAL Context, and a synthetic data set based on the CARLA simulator. We learn the given semantic segmentation task from these cue datasets, creating cue experts. Early fusion of cues is performed by constructing appropriate datasets. This is complemented by a late fusion of experts which allows us to study cue influence location-dependent on pixel level. Our study on three datasets reveals that neither texture nor shape clearly dominate the learning success, however a combination of shape and color but without texture achieves surprisingly strong results. Our findings hold for convolutional and transformer backbones. In particular, qualitatively there is almost no difference in how both of the architecture types extract information from the different cues.
- Abstract(参考訳): 近年では、画像分類のための既成の深層ニューラルネットワーク(DNN)の形状とテクスチャバイアスを研究する一連の研究が生まれている。
これらの研究は、訓練されたDNNが画像の手がかり、主に形状とテクスチャにどれだけ依存しているかを研究する。
この研究では、DNNがそれぞれの画像、すなわち形状、テクスチャ、色から何を学ぶことができるのか?
それぞれのキューは学習の成功にどの程度影響しますか?
そして、異なるキュー間の相乗効果は何か?
これらの質問を研究した結果、DNNの学習能力と学習への影響が明らかになった。
我々はこれらの疑問をセマンティックセグメンテーション(セマンティックセグメンテーション)で研究し、ピクセルレベルでの質問に対処する。
本研究では,与えられたデータセットを複数のデータセットに分解する汎用的な手順を開発する。
このフレームワークは、CARLAシミュレータに基づいた合成データセットであるCityscapesとPASCAL Contextの2つの実世界のデータセットに適用される。
これらのキューデータセットから与えられたセマンティックセグメンテーションタスクを学び、キューの専門家を作ります。
キューの早期融合は、適切なデータセットを構築することによって行われる。
これは、ピクセルレベルで位置に依存したキューの影響を研究できる専門家の後期融合によって補完される。
3つのデータセットについて検討した結果, テクスチャや形状が学習の成功を左右しないが, 形状と色の組み合わせは異なるが, テクスチャなしでは驚くほど強い結果が得られることがわかった。
コンボリューションとトランスフォーマーのバックボーンについて検討した。
特に質的にも、両方のアーキテクチャタイプが異なるキューからどのように情報を抽出するかには、ほとんど違いがない。
関連論文リスト
- Effect of Rotation Angle in Self-Supervised Pre-training is Dataset-Dependent [3.434553688053531]
事前学習のための自己教師型学習は、ネットワークがより低レベルな機能を学ぶのに役立つ。
対照的に事前学習では、ネットワークは入力の異なるバージョンを区別するために事前訓練される。
対照的な事前学習を用いたトレーニングでは、$theta$とデータセットが興味深い方法で相互作用することを示す。
論文 参考訳(メタデータ) (2024-06-21T12:25:07Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Contrastive Learning of Features between Images and LiDAR [18.211513930388417]
この研究は、クロスモーダルな特徴を密接な対照的な学習問題として扱う。
優れた特徴を学習し、一般性を損なわないために、画像に広く使われているPointNet++アーキテクチャの亜種を開発した。
我々のモデルでは,特徴を可視化することで,画像とLiDARの両方から情報を学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-24T04:35:23Z) - Investigating Neural Architectures by Synthetic Dataset Design [14.317837518705302]
近年、多くの新しいニューラルネットワーク構造(アーキテクチャと層)が出現している。
アドホックな合成データセットを設計することにより,各構造がネットワーク能力に与える影響を測定する手法をスケッチする。
本稿では,以下の3つのネットワーク特性のそれぞれを評価するために,3つのデータセットを構築した手法について述べる。
論文 参考訳(メタデータ) (2022-04-23T10:50:52Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Shape or Texture: Understanding Discriminative Features in CNNs [28.513300496205044]
最近の研究では、CNNが実際にテクスチャバイアスを持っていることが示されている」。
ネットワークは,最初の数回の訓練で,全体の形状情報の大部分を学習することを示す。
また、形状の符号化は、局所化された画素ごとのセマンティック情報の符号化を意味するものではないことを示す。
論文 参考訳(メタデータ) (2021-01-27T18:54:00Z) - Assessing The Importance Of Colours For CNNs In Object Recognition [70.70151719764021]
畳み込みニューラルネットワーク(CNN)は相反する性質を示すことが示されている。
CNNが予測をしながら色情報に大きく依存していることを実証します。
congruent, greyscale, incongruent画像の合同画像で学習したモデルを評価する。
論文 参考訳(メタデータ) (2020-12-12T22:55:06Z) - Informative Dropout for Robust Representation Learning: A Shape-bias
Perspective [84.30946377024297]
Informative Dropout (InfoDrop) と呼ばれる軽量モデル非依存の手法を提案し, 解釈性の向上とテクスチャバイアスの低減を図る。
具体的には、画像中の局所的な自己情報に基づいて形状からテクスチャを識別し、Dropoutのようなアルゴリズムを用いて局所的なテクスチャからのモデル出力をデコレーションする。
論文 参考訳(メタデータ) (2020-08-10T16:52:24Z) - What Do Neural Networks Learn When Trained With Random Labels? [20.54410239839646]
我々は、完全にランダムなラベルを持つ自然画像データに基づいて訓練されたディープニューラルネットワーク(DNN)について研究する。
ネットワークパラメータとデータの主成分間のアライメントをランダムラベルでトレーニングする場合に行う畳み込みネットワークと完全連結ネットワークを解析的に示す。
ランダムラベルで事前トレーニングされたネットワークは、スクラッチからのトレーニングに比べて、下流でのトレーニングを高速化する。
論文 参考訳(メタデータ) (2020-06-18T12:07:22Z) - Self-supervised Learning on Graphs: Deep Insights and New Direction [66.78374374440467]
自己教師付き学習(SSL)は、ラベルのないデータにドメイン固有のプレテキストタスクを作成することを目的としている。
グラフニューラルネットワーク(GNN)の形でのグラフ領域へのディープラーニングの一般化への関心が高まっている。
論文 参考訳(メタデータ) (2020-06-17T20:30:04Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。