論文の概要: Sparse Data Tree Canopy Segmentation: Fine-Tuning Leading Pretrained Models on Only 150 Images
- arxiv url: http://arxiv.org/abs/2601.10931v1
- Date: Fri, 16 Jan 2026 01:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.324905
- Title: Sparse Data Tree Canopy Segmentation: Fine-Tuning Leading Pretrained Models on Only 150 Images
- Title(参考訳): スパースデータツリー・キャノピー・セグメンテーション:わずか150枚の画像で事前訓練されたモデルによる微調整
- Authors: David Szczecina, Hudson Sun, Anthony Bertnyk, Niloofar Azad, Kyle Gao, Lincoln Linlin Xu,
- Abstract要約: 空中画像からの樹冠検出は, 環境モニタリング, 都市計画, 生態系分析において重要な課題である。
Solafune Tree Canopy Detectionコンペティションは、実際のデータアノテーションの不足をシミュレートし、わずか150の注釈付きイメージの小さな不均衡なデータセットを提供する。
我々は, YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, DINOv2の5つの代表的なアーキテクチャを評価し, 極度のデータ不足下でのキャノピーセグメンテーションの適合性を評価する。
- 参考スコア(独自算出の注目度): 0.8294874285381528
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tree canopy detection from aerial imagery is an important task for environmental monitoring, urban planning, and ecosystem analysis. Simulating real-life data annotation scarcity, the Solafune Tree Canopy Detection competition provides a small and imbalanced dataset of only 150 annotated images, posing significant challenges for training deep models without severe overfitting. In this work, we evaluate five representative architectures, YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, and DINOv2, to assess their suitability for canopy segmentation under extreme data scarcity. Our experiments show that pretrained convolution-based models, particularly YOLOv11 and Mask R-CNN, generalize significantly better than pretrained transformer-based models. DeeplabV3, Swin-UNet and DINOv2 underperform likely due to differences between semantic and instance segmentation tasks, the high data requirements of Vision Transformers, and the lack of strong inductive biases. These findings confirm that transformer-based architectures struggle in low-data regimes without substantial pretraining or augmentation and that differences between semantic and instance segmentation further affect model performance. We provide a detailed analysis of training strategies, augmentation policies, and model behavior under the small-data constraint and demonstrate that lightweight CNN-based methods remain the most reliable for canopy detection on limited imagery.
- Abstract(参考訳): 空中画像からの樹冠検出は, 環境モニタリング, 都市計画, 生態系分析において重要な課題である。
実際のデータアノテーションの不足をシミュレートするSolafune Tree Canopy Detectionコンペティションは、わずか150の注釈付きイメージの小さな、不均衡なデータセットを提供する。
本研究では, YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, DINOv2の5つの代表的なアーキテクチャを評価し, 極度のデータ不足下でのキャノピーセグメンテーションの適合性を評価する。
実験の結果,事前学習した畳み込みモデル,特に YOLOv11 と Mask R-CNN は,事前学習したトランスフォーマーモデルよりもはるかによく一般化されていることがわかった。
DeeplabV3、Swin-UNet、DINOv2は、セマンティックなセグメンテーションタスクとインスタンスのセグメンテーションタスクの違い、ビジョントランスフォーマーの高データ要求、強力なインダクティブバイアスの欠如によってパフォーマンスが低下している可能性が高い。
これらの結果から,トランスフォーマーをベースとしたアーキテクチャは,事前学習や拡張を伴わない低データ構造に苦慮し,セマンティクスとインスタンスセグメンテーションの違いがモデル性能にさらに影響を及ぼすことが確認された。
我々は、小データ制約下でのトレーニング戦略、強化ポリシー、モデル行動の詳細な分析を行い、限られた画像上でのキャノピー検出において、軽量CNNベースの手法が最も信頼性が高いことを示す。
関連論文リスト
- Comparative Analysis of Deep Learning Strategies for Hypertensive Retinopathy Detection from Fundus Images: From Scratch and Pre-trained Models [5.860609259063137]
本稿では,眼底画像から高血圧性網膜症を検出するためのディープラーニング手法の比較分析を行った。
我々は、カスタムCNN、トレーニング済みトランスフォーマーベースモデルのスイート、AutoMLソリューションの3つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2025-06-14T13:11:33Z) - Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Spatio-Temporal Encoding of Brain Dynamics with Surface Masked Autoencoders [10.097983222759884]
表面仮面オートエンコーダ(sMAE)と表面仮面オートエンコーダ(MAE)
これらのモデルは、皮質発達と構造関数の強力な潜在表現を学習することにより、入力のマスクされたバージョンから皮質特徴写像を再構築するように訓練されている。
以上の結果から, (v)sMAE事前学習モデルでは, 複数のタスクにおける表現型予測性能が約26%向上し,スクラッチからトレーニングしたモデルに対してより高速な収束が得られた。
論文 参考訳(メタデータ) (2023-08-10T10:01:56Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。