論文の概要: BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species
Classification and Mapping
- arxiv url: http://arxiv.org/abs/2310.19168v1
- Date: Sun, 29 Oct 2023 22:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:00:25.355287
- Title: BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species
Classification and Mapping
- Title(参考訳): birdsat:鳥種分類とマッピングのためのクロスビューコントラストマスク自動エンコーダ
- Authors: Srikumar Sastry, Subash Khanal, Aayush Dhakal, Di Huang, Nathan Jacobs
- Abstract要約: 本稿では,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータ認識型自己教師型学習(SSL)フレームワークを提案する。
当社のフレームワークは,コントラスト学習(CL)とMasked Image Modeling(MIM)の2つのSSL戦略を統合するとともに,鳥の地上レベルの画像にメタデータを付加した埋め込み空間を充実させる。
本研究では,小粒度の視覚的分類(FGVC)とクロスモーダル検索(クロスモーダル検索)という2つの下流課題に基づいて,鳥の細粒度・地理的に条件付けられた特徴を学習できることを実証した。
- 参考スコア(独自算出の注目度): 22.30038765017189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a metadata-aware self-supervised learning~(SSL)~framework useful
for fine-grained classification and ecological mapping of bird species around
the world. Our framework unifies two SSL strategies: Contrastive Learning~(CL)
and Masked Image Modeling~(MIM), while also enriching the embedding space with
metadata available with ground-level imagery of birds. We separately train
uni-modal and cross-modal ViT on a novel cross-view global bird species dataset
containing ground-level imagery, metadata (location, time), and corresponding
satellite imagery. We demonstrate that our models learn fine-grained and
geographically conditioned features of birds, by evaluating on two downstream
tasks: fine-grained visual classification~(FGVC) and cross-modal retrieval.
Pre-trained models learned using our framework achieve SotA performance on FGVC
of iNAT-2021 birds and in transfer learning settings for CUB-200-2011 and
NABirds datasets. Moreover, the impressive cross-modal retrieval performance of
our model enables the creation of species distribution maps across any
geographic region. The dataset and source code will be released at
https://github.com/mvrl/BirdSAT}.
- Abstract(参考訳): 我々は,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータを意識した自己教師型学習(SSL)フレームワークを提案する。
コントラスト学習〜(CL) と Masked Image Modeling~(MIM) の2つのSSL戦略を統合するとともに,埋め込み空間に鳥の地上画像のメタデータを付加する。
我々は、地上画像、メタデータ(位置、時間)、対応する衛星画像を含む、新しいクロスビューグローバルバード種データセット上で、ユニモーダルとクロスモーダルvitを別々に訓練する。
我々は,鳥の細粒度・地理的条件付き特徴を学習するモデルとして,細粒度視覚分類~(fgvc)と交叉モーダル検索の2つの課題を評価した。
inat-2021鳥類のfgvcとcub-200-2011とnabirdsデータセットの転送学習設定で学習した事前学習モデルによってsoma性能が向上した。
さらに,このモデルの印象的なクロスモーダル検索性能により,任意の地理的領域にまたがる種分布マップの作成が可能となった。
データセットとソースコードはhttps://github.com/mvrl/BirdSAT}で公開される。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - OAM-TCD: A globally diverse dataset of high-resolution tree cover maps [8.336960607169175]
OpenMap (OAM) から得られた高解像度の空中画像において, ツリークラウンデライン化(TCD)のための新しいオープンアクセスデータセットを提案する。
我々のデータセットであるOAM-TCDは、50722048x2048px画像を10cm/px解像度で、関連する280k個以上の木と56k個の木からなる。
データセットを使用して、既存の最先端モデルと比較する参照インスタンスとセマンティックセグメンテーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-07-16T14:11:29Z) - WildlifeDatasets: An open-source toolkit for animal re-identification [0.0]
WildlifeDatasetsは、生態学者とコンピュータビジョン/機械学習研究者のためのオープンソースのツールキットである。
WildlifeDatasetsはPythonで書かれており、公開されている野生生物データセットに簡単にアクセスできる。
我々は,MegaDescriptorという多種多様な種において,個人を再同定するための最初の基礎モデルを提供する。
論文 参考訳(メタデータ) (2023-11-15T17:08:09Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - Transfer Learning with Semi-Supervised Dataset Annotation for Birdcall
Classification [0.0]
本研究では,BirdCLEF 2023コンペティションのための半教師付きデータセットアノテーションを用いたトランスファー学習について検討する。
提案手法では,既存の市販モデルであるBirdNETとMixITを用いて,コンペティションにおける表現とラベル付けの課題に対処する。
論文 参考訳(メタデータ) (2023-06-29T07:56:27Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multi-Domain Few-Shot Learning and Dataset for Agricultural Applications [0.0]
そこで本研究では,いくつかのサンプルから異なる害虫,植物,その病原体を自動分類する手法を提案する。
埋め込みを生成する機能抽出器を学習し、Transformerを使って埋め込みを更新する。
モデル全体を包括的に解析するために42の実験を行い、画像分類ベンチマークで最大14%と24%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-09-21T04:20:18Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - Can Giraffes Become Birds? An Evaluation of Image-to-image Translation
for Data Generation [0.0]
新しいデータを生成するためにGAN(Generative Adrial Networks)を用いて画像から画像への変換を行う。
InstaGANという名前の教師なしクロスドメイン翻訳者は、両方のドメイン間の翻訳を学ぶために、キリンと鳥とそれぞれのマスクで訓練された。
元々の空間配置と背景を保存しつつ、原キリン画像からの翻訳を用いて合成鳥画像のデータセットを生成した。
論文 参考訳(メタデータ) (2020-01-10T19:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。