論文の概要: Habitat Classification from Ground-Level Imagery Using Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2507.04017v1
- Date: Sat, 05 Jul 2025 12:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.976009
- Title: Habitat Classification from Ground-Level Imagery Using Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークを用いた地表面画像からのハビタット分類
- Authors: Hongrui Shi, Lisa Norton, Lucy Ridding, Simon Rolph, Tom August, Claire M Wood, Lan Qie, Petra Bosilj, James M Brown,
- Abstract要約: 本研究では、現在最先端の深層ニューラルネットワークアーキテクチャを地上レベルの生息地画像に適用する。
我々は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の2つのモデルのファミリーを評価する。
我々の結果は、ViTsがキー分類基準の最先端CNNベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 1.3408365072149797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Habitat assessment at local scales -- critical for enhancing biodiversity and guiding conservation priorities -- often relies on expert field survey that can be costly, motivating the exploration of AI-driven tools to automate and refine this process. While most AI-driven habitat mapping depends on remote sensing, it is often constrained by sensor availability, weather, and coarse resolution. In contrast, ground-level imagery captures essential structural and compositional cues invisible from above and remains underexplored for robust, fine-grained habitat classification. This study addresses this gap by applying state-of-the-art deep neural network architectures to ground-level habitat imagery. Leveraging data from the UK Countryside Survey covering 18 broad habitat types, we evaluate two families of models -- convolutional neural networks (CNNs) and vision transformers (ViTs) -- under both supervised and supervised contrastive learning paradigms. Our results demonstrate that ViTs consistently outperform state-of-the-art CNN baselines on key classification metrics (Top-3 accuracy = 91\%, MCC = 0.66) and offer more interpretable scene understanding tailored to ground-level images. Moreover, supervised contrastive learning significantly reduces misclassification rates among visually similar habitats (e.g., Improved vs. Neutral Grassland), driven by a more discriminative embedding space. Finally, our best model performs on par with experienced ecological experts in habitat classification from images, underscoring the promise of expert-level automated assessment. By integrating advanced AI with ecological expertise, this research establishes a scalable, cost-effective framework for ground-level habitat monitoring to accelerate biodiversity conservation and inform land-use decisions at the national scale.
- Abstract(参考訳): 生物多様性の向上と保護の優先事項の導出に不可欠な地域規模のハビタットアセスメントは、しばしばコストがかかる専門家のフィールドサーベイに依存しており、このプロセスを自動化し洗練するためのAI駆動ツールの探索を動機付けている。
ほとんどのAI駆動の生息地マッピングはリモートセンシングに依存しているが、センサーの可用性、天気、粗い解像度によって制約されることが多い。
対照的に、地上レベルの画像は、上から見えない重要な構造的・構成的手がかりを捉え、頑丈できめ細かな生息地分類のために調査されていない。
本研究では、現在最先端の深層ニューラルネットワークアーキテクチャを地上レベルの生息地画像に適用することにより、このギャップを解消する。
英国カントリーサイド調査(UK Countryside Survey)による18種類の生息地に関するデータを活用し、コンボリューショナルニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の2つのモデルのファミリーを、教師付きおよび教師付きコントラスト学習パラダイムの両方で評価する。
以上の結果から,VTは重要な分類基準(Top-3精度=91\%,MCC=0.66)を常に上回り,地上レベルの画像に合わせたより解釈可能なシーン理解を提供する。
さらに、教師付きコントラスト学習は、より差別的な埋め込み空間によって引き起こされる視覚的に類似した生息地(例えば、改良された対ニュートラルグラスランド)の誤分類率を著しく低下させる。
最後に, 画像からの生息環境分類において, 経験豊富な生態専門家に匹敵する性能を示し, 専門家レベルの自動評価の可能性を実証した。
先進的なAIと生態学の専門知識を統合することにより、生物多様性の保全を加速し、国家規模で土地利用決定を通知する、地上レベルの生息地監視のためのスケーラブルで費用対効果の高い枠組みを確立する。
関連論文リスト
- Supervised and self-supervised land-cover segmentation & classification of the Biesbosch wetlands [0.0]
本研究では,教師付き学習と自己指導型学習を併用した湿地土地被覆区分と分類手法を提案する。
オランダの6つの湿地帯におけるSentinel-2画像のスクラッチからU-Netモデルをトレーニングし、ベースラインモデルの精度は85.26%に達した。
ラベル付きデータの可用性の制限に対処して、オートエンコーダでSSLを事前トレーニングすることで、特に高解像度画像において精度が向上することを示した。
論文 参考訳(メタデータ) (2025-05-27T14:42:49Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery [0.0]
サイドスキャンソナー (SSS) 画像は海底の人工物体の分類においてユニークな課題を呈している。
本稿では、SSS画像のバイナリ分類タスクによく使用されるCNNアーキテクチャとともに、VTモデルの性能を厳格に比較する。
ViTベースのモデルは、f1スコア、精度、リコール、精度の指標で優れた分類性能を示す。
論文 参考訳(メタデータ) (2024-09-18T14:36:50Z) - StrideNET: Swin Transformer for Terrain Recognition with Dynamic Roughness Extraction [0.0]
本稿では、地形認識と暗黙的特性推定のために設計された新しいデュアルブランチアーキテクチャであるStrideNETを提案する。
この研究の意味は、環境モニタリング、土地利用、土地被覆分類(LULC)、災害対応、精密農業など、様々な応用にまで及んでいる。
論文 参考訳(メタデータ) (2024-04-20T04:51:59Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Embedding Earth: Self-supervised contrastive pre-training for dense land
cover classification [61.44538721707377]
本研究では,衛星画像の高可用性を活用するための自己監督型コントラスト事前学習法として,エンベディングアースを提案する。
提案手法による事前学習では, 25%の絶対mIoUが得られた。
学習した特徴は、異なる領域間で一般化され、提案した事前学習スキームの可能性を開放する。
論文 参考訳(メタデータ) (2022-03-11T16:14:14Z) - Ensembles of Vision Transformers as a New Paradigm for Automated
Classification in Ecology [0.0]
データ効率のよい画像変換器(DeiTs)のアンサンブルが従来のSOTA(SOTA)よりも大幅に優れていたことを示す。
テストしたすべてのデータセットに対して、新しいSOTAを実現し、以前のSOTAの18.48%から87.50%の誤差を削減した。
論文 参考訳(メタデータ) (2022-03-03T14:16:22Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。