論文の概要: Dual Atrous Separable Convolution for Improving Agricultural Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.22570v1
- Date: Fri, 27 Jun 2025 18:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.471153
- Title: Dual Atrous Separable Convolution for Improving Agricultural Semantic Segmentation
- Title(参考訳): 農業セマンティックセマンティックセグメンテーション改善のためのデュアルアトラス分離コンボリューション
- Authors: Chee Mei Ling, Thangarajah Akilan, Aparna Ravinda Phalke,
- Abstract要約: 本研究では, 精密農業における効率的な画像分割手法を提案する。
Dual Atrous Separable Convolution (DAS Conv)モジュールはDeepLabV3ベースのセグメンテーションフレームワークに統合されている。
モデルの複雑さとパフォーマンスのトレードオフを考慮すると、66%以上の効率改善が達成されます。
- 参考スコア(独自算出の注目度): 2.3636539018632616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agricultural image semantic segmentation is a pivotal component of modern agriculture, facilitating accurate visual data analysis to improve crop management, optimize resource utilization, and boost overall productivity. This study proposes an efficient image segmentation method for precision agriculture, focusing on accurately delineating farmland anomalies to support informed decision-making and proactive interventions. A novel Dual Atrous Separable Convolution (DAS Conv) module is integrated within the DeepLabV3-based segmentation framework. The DAS Conv module is meticulously designed to achieve an optimal balance between dilation rates and padding size, thereby enhancing model performance without compromising efficiency. The study also incorporates a strategic skip connection from an optimal stage in the encoder to the decoder to bolster the model's capacity to capture fine-grained spatial features. Despite its lower computational complexity, the proposed model outperforms its baseline and achieves performance comparable to highly complex transformer-based state-of-the-art (SOTA) models on the Agriculture Vision benchmark dataset. It achieves more than 66% improvement in efficiency when considering the trade-off between model complexity and performance, compared to the SOTA model. This study highlights an efficient and effective solution for improving semantic segmentation in remote sensing applications, offering a computationally lightweight model capable of high-quality performance in agricultural imagery.
- Abstract(参考訳): 農業イメージセマンティックセグメンテーションは現代農業の重要な要素であり、正確な視覚データ分析を促進し、作物の管理を改善し、資源利用を最適化し、全体的な生産性を高める。
本研究では,精密農業における効率的な画像分割手法を提案する。
Dual Atrous Separable Convolution (DAS Conv)モジュールはDeepLabV3ベースのセグメンテーションフレームワークに統合されている。
DAS Convモジュールは、ダイレーションレートとパディングサイズを最適にバランスさせるように設計されており、効率を損なうことなくモデル性能を向上させることができる。
この研究は、エンコーダの最適段階からデコーダへの戦略的スキップ接続を組み込んで、モデルのキャパシティを高め、きめ細かい空間的特徴を捉える。
計算複雑性が低いにもかかわらず、提案モデルはベースラインを上回り、Garmy Visionベンチマークデータセット上の高度に複雑なトランスフォーマーベース(SOTA)モデルに匹敵するパフォーマンスを達成する。
SOTAモデルと比較して、モデルの複雑さとパフォーマンスのトレードオフを考慮すると、66%以上の効率改善が達成されます。
本研究は、リモートセンシングアプリケーションにおけるセマンティックセグメンテーションを改善するための効率的かつ効果的なソリューションを強調し、農業画像の高品質な性能を実現するための計算的軽量モデルを提供する。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - AdaptoVision: A Multi-Resolution Image Recognition Model for Robust and Scalable Classification [0.0]
AdaptoVisionは、計算複雑性と分類精度を効率的にバランスさせるように設計された、新しい畳み込みニューラルネットワーク(CNN)アーキテクチャである。
強化された残余単位、深さ的に分離可能な畳み込み、階層的なスキップ接続を利用することで、AdaptoVisionはパラメータ数と計算要求を大幅に削減する。
CIFAR-10では95.3%、CIFAR-100では85.77%であり、事前訓練された重量に依存しない。
論文 参考訳(メタデータ) (2025-04-17T05:23:07Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - KonvLiNA: Integrating Kolmogorov-Arnold Network with Linear Nyström Attention for feature fusion in Crop Field Detection [0.0]
本研究では,コンボリュータル・コルモゴロフ・アルノルドネットワーク(cKAN)とNystr"om attention mechanismを統合した新しいフレームワークであるKonvLiNAを紹介した。
論文 参考訳(メタデータ) (2024-08-23T15:33:07Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。