Fugu-MT 論文翻訳(概要): Understanding Representation Gaps Across Scales in Tropical Tree Species Classification from Drone Imagery

論文の概要: Understanding Representation Gaps Across Scales in Tropical Tree Species Classification from Drone Imagery

arxiv url: http://arxiv.org/abs/2604.23019v1
Date: Fri, 24 Apr 2026 21:11:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.103976
Title: Understanding Representation Gaps Across Scales in Tropical Tree Species Classification from Drone Imagery
Title（参考訳）: ドローン画像を用いた熱帯樹種分類における表現ギャップの網羅的理解
Authors: Sulagna Saha, Arthur Ouaknine, Etienne Laliberté, Carol Altimas, Evan M. Gora, Adriane Esquivel Muelbert, Ian R. McGregor, Cesar Gutierrez, Vanessa E. Rubio, David Rolnick,
Abstract要約: 種の多い熱帯林で収集したペアトップビューとクローズアップUAV画像を用いた既存手法の性能評価を行った。クローズアップ画像では、トップビューの空中画像よりも分類性能が一貫して高いことを示す。
参考スコア（独自算出の注目度）: 12.010856273766867
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate classification of tropical tree species from unoccupied aerial vehicle (UAV) imagery remains challenging due to high species diversity and strong visual similarity among species at typical image resolutions (centimeters per pixel). In contrast, models trained on close-up citizen science photographs captured with smartphones achieve strong plant species classification performance. Recent advances in UAV data acquisition now enable the collection of close-up images that are spatially registered with top-view aerial imagery and approach the level of visual detail found in smartphone photographs, with the trade-off that such high-resolution photos cannot be acquired for many trees. In this work, we evaluate the performance of existing methods using paired top-view and close-up UAV imagery collected in a species-rich tropical forest. Through fine-tuning experiments, we quantify the performance gap between vision foundation models and in-domain generalist plant recognition models across both image types (high-resolution close-up versus coarser-resolution top-view imagery). We show that classification performance is consistently higher on close-up images than on top-view aerial imagery, and that this performance gap widens for rare species. Finally, we propose that self-supervised representation alignment across these two spatial scales offers a promising approach for integrating fine-grained visual information into canopy-level species classification models based on top-view UAV imagery. Leveraging high-resolution close-up UAV imagery to enhance canopy-level species classification could substantially improve large-scale monitoring of tropical forest biodiversity.
Abstract（参考訳）: 無人航空機(UAV)画像からの熱帯樹種の正確な分類は、典型的な画像解像度(ピクセル当たりのセンタッター)において、高い種多様性と強い視覚的類似性のため、依然として困難である。対照的に、スマートフォンで撮影したクローズアップな市民科学写真に基づいて訓練されたモデルは、強い植物種分類性能を達成する。 UAVデータ取得の最近の進歩により、空間的にトップビューの空中画像に登録されたクローズアップ画像の収集が可能となり、スマートフォン写真に見られる視覚的詳細レベルに近づき、高解像度写真は多くの木で取得できないというトレードオフがある。本研究では,種の多い熱帯林で採集されたペアトップビューとクローズアップUAV画像を用いた既存手法の性能評価を行った。微調整実験により、両画像タイプ(高解像度クローズアップと粗度トップビュー画像)における視覚基礎モデルとドメイン内ジェネリスト植物認識モデルのパフォーマンスギャップを定量化する。分類性能は,トップビューの航空画像よりもクローズアップ画像の方が常に高く,この性能差は希少種に対して大きくなっていることを示す。最後に,これら2つの空間スケールにまたがる自己教師付き配向アライメントは,トップビューUAV画像に基づくキャノピーレベルの種分類モデルに,きめ細かい視覚情報を統合するための有望なアプローチを提供する。高解像度のUAV画像を活用することで、熱帯林の生物多様性の大規模モニタリングを大幅に改善する可能性がある。

関連論文リスト

SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification [5.420786129061269]
本稿では,ストリップ認識型空間知覚に基づく細粒度鳥の画像分類フレームワークを提案する。提案手法は, 拡張知覚アグリゲータ (EPA) とチャネルセマンティックウィービング (CSW) の2つの新しいモジュールを含む。 ResNet-50のバックボーン上に構築されたこのモデルは、空間領域を越えて拡張された構造的特徴のジャンプワイズ接続を可能にする。
論文参考訳（メタデータ） (2025-05-30T09:10:12Z)
BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning [60.80381372245902]
生体視覚モデルでは,大規模コントラスト視覚言語学習により創発的行動が観察される。我々は、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
論文参考訳（メタデータ） (2025-05-29T17:48:20Z)
Automated Detection of Salvin's Albatrosses: Improving Deep Learning Tools for Aerial Wildlife Surveys [4.936287307711449]
無人航空機(UAV)は高解像度画像を撮影する費用効率のよい手段を提供する。ニュージーランドのバウンティ諸島におけるサルビンのアルバトロス(Thalassarche salvini)の繁殖個体数を推定するための汎用鳥類検出モデルBirdDetectorの性能評価を行った。
論文参考訳（メタデータ） (2025-05-15T22:42:44Z)
Tree Species Classification using Machine Learning and 3D Tomographic SAR -- a case study in Northern Europe [0.0]
樹木種の分類は、自然保護、森林在庫、森林管理、絶滅危惧種の保護において重要な役割を担っている。本研究では,SLC(Single-look Complex)画像のスタックを利用した3次元トモグラフィーデータセットであるTtomoSenseを用いた。
論文参考訳（メタデータ） (2024-11-19T22:25:26Z)
Multimodal Foundation Models for Zero-shot Animal Species Recognition in Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-11-02T08:32:00Z)
Series Photo Selection via Multi-view Graph Learning [52.33318426088579]
連続写真選択(SPS)は画像美学の質評価の重要な分野である。我々は,マルチビュー特徴間の関係を構築するために,グラフニューラルネットワークを利用する。ほぼ同一の一連の写真の中から最適なものを選択するために、シアムズネットワークが提案されている。
論文参考訳（メタデータ） (2022-03-18T04:23:25Z)
Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。 CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2021-06-19T23:57:31Z)
Attention Model Enhanced Network for Classification of Breast Cancer Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。 3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文参考訳（メタデータ） (2020-10-07T08:44:21Z)
Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文参考訳（メタデータ） (2020-05-18T21:57:47Z)
Automatic image-based identification and biomass estimation of invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文参考訳（メタデータ） (2020-02-05T21:38:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。