論文の概要: HaarNet: Large-scale Linear-Morphological Hybrid Network for RGB-D
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2310.07669v1
- Date: Wed, 11 Oct 2023 17:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 21:39:41.244943
- Title: HaarNet: Large-scale Linear-Morphological Hybrid Network for RGB-D
Semantic Segmentation
- Title(参考訳): haarnet: rgb-dセマンティクスセグメンテーションのための大規模リニアモルフォロジーハイブリッドネットワーク
- Authors: Rick Groenendijk, Leo Dorst, Theo Gevers
- Abstract要約: これは、拡張可能な実世界のデータセットのセットで評価された最初の大規模線形形態学ハイブリッドである。
HaarNetは最先端のCNNと競合しており、形態学ネットワークが幾何学ベースの学習タスクのための有望な研究方向であることを示唆している。
- 参考スコア(独自算出の注目度): 12.89384111017003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Signals from different modalities each have their own combination algebra
which affects their sampling processing. RGB is mostly linear; depth is a
geometric signal following the operations of mathematical morphology. If a
network obtaining RGB-D input has both kinds of operators available in its
layers, it should be able to give effective output with fewer parameters. In
this paper, morphological elements in conjunction with more familiar linear
modules are used to construct a mixed linear-morphological network called
HaarNet. This is the first large-scale linear-morphological hybrid, evaluated
on a set of sizeable real-world datasets. In the network, morphological Haar
sampling is applied to both feature channels in several layers, which splits
extreme values and high-frequency information such that both can be processed
to improve both modalities. Moreover, morphologically parameterised ReLU is
used, and morphologically-sound up-sampling is applied to obtain a
full-resolution output. Experiments show that HaarNet is competitive with a
state-of-the-art CNN, implying that morphological networks are a promising
research direction for geometry-based learning tasks.
- Abstract(参考訳): 異なるモダリティの信号はそれぞれ、サンプリング処理に影響を与える独自の組合せ代数を持つ。
RGBは主に線形であり、深さは数学的形態学の操作に続く幾何学的信号である。
rgb-d入力を得るネットワークが、その層で利用可能な2種類のオペレータを持つ場合、より少ないパラメータで効果的な出力を提供できるべきである。
本稿では、より親しみやすい線形加群と結合した形態素を用いて、HaarNetと呼ばれる混合線形形態素ネットワークを構築する。
これは、拡張可能な実世界のデータセットのセットで評価された最初の大規模線形形態学ハイブリッドである。
このネットワークでは、複数の層における両方の特徴チャネルにモルフォロジー・ハールサンプリングを適用し、極端な値と高周波情報を分割することで、両方のモダリティを改善することができる。
さらに、モルフォロジーパラメタライズされたReLUを用い、モルフォロジーアップサンプリングを適用してフルレゾリューション出力を得る。
実験によると、HaarNetは最先端のCNNと競合しており、形態学ネットワークが幾何学に基づく学習タスクの有望な研究方向であることを示唆している。
関連論文リスト
- Deep Learning as Ricci Flow [38.27936710747996]
ディープニューラルネットワーク(DNN)は、複雑なデータの分布を近似する強力なツールである。
分類タスク中のDNNによる変換は、ハミルトンのリッチ流下で期待されるものと類似していることを示す。
本研究の成果は, 微分幾何学や離散幾何学から, 深層学習における説明可能性の問題まで, ツールの利用を動機づけるものである。
論文 参考訳(メタデータ) (2024-04-22T15:12:47Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection [13.126051625000605]
RGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの特徴を別々に抽出する。
本稿では,トランスフォーマーを用いた非対称ネットワーク(TANet)を提案する。
提案手法は、6つの公開データセット上での14の最先端RGB-D手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-07-04T03:06:59Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - TSGCNet: Discriminative Geometric Feature Learning with Two-Stream
GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。
3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文 参考訳(メタデータ) (2020-12-26T08:02:56Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。