論文の概要: Bridging Classical and Modern Computer Vision: PerceptiveNet for Tree Crown Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.23597v1
- Date: Thu, 29 May 2025 16:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.971408
- Title: Bridging Classical and Modern Computer Vision: PerceptiveNet for Tree Crown Semantic Segmentation
- Title(参考訳): 古典的・近代的なコンピュータビジョンのブリッジ:木冠セマンティックセマンティックセグメンテーションのための知覚ネット
- Authors: Georgios Voulgaris,
- Abstract要約: PerceptiveNetは、トレーニング可能なフィルタパラメータを持つ対数ガボールパラメータ化畳み込み層を組み込んだ、新しいモデルである。
セグメンテーション性能に及ぼすLog-Gabor,Gabor,および標準畳み込み層の影響について検討する。
その結果,ツリークラウンデータセットの性能が向上し,最先端モデルよりも優れた結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The accurate semantic segmentation of tree crowns within remotely sensed data is crucial for scientific endeavours such as forest management, biodiversity studies, and carbon sequestration quantification. However, precise segmentation remains challenging due to complexities in the forest canopy, including shadows, intricate backgrounds, scale variations, and subtle spectral differences among tree species. Compared to the traditional methods, Deep Learning models improve accuracy by extracting informative and discriminative features, but often fall short in capturing the aforementioned complexities. To address these challenges, we propose PerceptiveNet, a novel model incorporating a Logarithmic Gabor-parameterised convolutional layer with trainable filter parameters, alongside a backbone that extracts salient features while capturing extensive context and spatial information through a wider receptive field. We investigate the impact of Log-Gabor, Gabor, and standard convolutional layers on semantic segmentation performance through extensive experimentation. Additionally, we conduct an ablation study to assess the contributions of individual layers and their combinations to overall model performance, and we evaluate PerceptiveNet as a backbone within a novel hybrid CNN-Transformer model. Our results outperform state-of-the-art models, demonstrating significant performance improvements on a tree crown dataset while generalising across domains, including two benchmark aerial scene semantic segmentation datasets with varying complexities.
- Abstract(参考訳): リモートセンシングデータにおける樹冠の正確なセマンティックセグメンテーションは、森林管理、生物多様性研究、炭素隔離定量化などの科学的取り組みに不可欠である。
しかし、影、複雑な背景、スケールの変化、樹木種間の微妙なスペクトル差など、森林天蓋の複雑さのため、正確なセグメンテーションは依然として困難である。
従来の手法と比較して、ディープラーニングモデルは情報的特徴と識別的特徴を抽出することで精度を向上させるが、上記の複雑さを捉えるには不足することが多い。
これらの課題に対処するために,学習可能なフィルタパラメータを持つ対数ガボールパラメータ化畳み込み層を組み込んだ新しいモデルPerceptiveNetを提案する。
大規模実験により,Log-Gabor,Gabor,および標準畳み込み層がセマンティックセグメンテーション性能に及ぼす影響について検討した。
さらに,個々の層とそれらの組み合わせが全体のモデル性能に与える影響を評価するためのアブレーション研究を行い,新しいハイブリッドCNN-TransformerモデルにおいてPerceptiveNetをバックボーンとして評価する。
以上の結果より,ツリークラウンデータセットの性能は向上し,領域をまたいだ一般化が図られ,また,複雑な部分の異なる2つのベンチマーク画像シーンセマンティックセマンティックセマンティックデータセットも実現できた。
関連論文リスト
- It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。
この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。
2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文 参考訳(メタデータ) (2024-11-16T08:54:27Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Benchmarking Individual Tree Mapping with Sub-meter Imagery [6.907098367807166]
我々は,任意の物理的環境において,個々の木マッピングに適した評価フレームワークを提案する。
異なるアプローチと深いアーキテクチャをレビューし比較し、セグメンテーションと検出のよい妥協であることを示す新しい手法を実験的に導入する。
論文 参考訳(メタデータ) (2023-11-14T08:21:36Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Instance segmentation of fallen trees in aerial color infrared imagery
using active multi-contour evolution with fully convolutional network-based
intensity priors [0.5276232626689566]
画像のセグメンテーションマップ上での複数のアクティブな輪郭進化により、共通オブジェクトクラスのインスタンスをセグメンテーションするフレームワークを導入する。
高分解能空中多スペクトル画像から個々の落下茎を分割する文脈で提案されたフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-05-05T11:54:05Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。