論文の概要: BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species
Classification and Mapping
- arxiv url: http://arxiv.org/abs/2310.19168v1
- Date: Sun, 29 Oct 2023 22:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:00:25.355287
- Title: BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species
Classification and Mapping
- Title(参考訳): birdsat:鳥種分類とマッピングのためのクロスビューコントラストマスク自動エンコーダ
- Authors: Srikumar Sastry, Subash Khanal, Aayush Dhakal, Di Huang, Nathan Jacobs
- Abstract要約: 本稿では,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータ認識型自己教師型学習(SSL)フレームワークを提案する。
当社のフレームワークは,コントラスト学習(CL)とMasked Image Modeling(MIM)の2つのSSL戦略を統合するとともに,鳥の地上レベルの画像にメタデータを付加した埋め込み空間を充実させる。
本研究では,小粒度の視覚的分類(FGVC)とクロスモーダル検索(クロスモーダル検索)という2つの下流課題に基づいて,鳥の細粒度・地理的に条件付けられた特徴を学習できることを実証した。
- 参考スコア(独自算出の注目度): 22.30038765017189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a metadata-aware self-supervised learning~(SSL)~framework useful
for fine-grained classification and ecological mapping of bird species around
the world. Our framework unifies two SSL strategies: Contrastive Learning~(CL)
and Masked Image Modeling~(MIM), while also enriching the embedding space with
metadata available with ground-level imagery of birds. We separately train
uni-modal and cross-modal ViT on a novel cross-view global bird species dataset
containing ground-level imagery, metadata (location, time), and corresponding
satellite imagery. We demonstrate that our models learn fine-grained and
geographically conditioned features of birds, by evaluating on two downstream
tasks: fine-grained visual classification~(FGVC) and cross-modal retrieval.
Pre-trained models learned using our framework achieve SotA performance on FGVC
of iNAT-2021 birds and in transfer learning settings for CUB-200-2011 and
NABirds datasets. Moreover, the impressive cross-modal retrieval performance of
our model enables the creation of species distribution maps across any
geographic region. The dataset and source code will be released at
https://github.com/mvrl/BirdSAT}.
- Abstract(参考訳): 我々は,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータを意識した自己教師型学習(SSL)フレームワークを提案する。
コントラスト学習〜(CL) と Masked Image Modeling~(MIM) の2つのSSL戦略を統合するとともに,埋め込み空間に鳥の地上画像のメタデータを付加する。
我々は、地上画像、メタデータ(位置、時間)、対応する衛星画像を含む、新しいクロスビューグローバルバード種データセット上で、ユニモーダルとクロスモーダルvitを別々に訓練する。
我々は,鳥の細粒度・地理的条件付き特徴を学習するモデルとして,細粒度視覚分類~(fgvc)と交叉モーダル検索の2つの課題を評価した。
inat-2021鳥類のfgvcとcub-200-2011とnabirdsデータセットの転送学習設定で学習した事前学習モデルによってsoma性能が向上した。
さらに,このモデルの印象的なクロスモーダル検索性能により,任意の地理的領域にまたがる種分布マップの作成が可能となった。
データセットとソースコードはhttps://github.com/mvrl/BirdSAT}で公開される。
関連論文リスト
- Leveraging Habitat Information for Fine-grained Bird Identification [4.392299539811761]
我々は鳥類学者によって鳥類を識別する4つの主要な方法の1つである生息地情報を現代の鳥類分類器に組み込むことを最初に検討した。
我々は、下流の鳥のデータセットに基づいて訓練されたCNNとViTと、オリジナルのマルチモーダルCLIPの2つの主要なモデルタイプに焦点を当てる。
CNNとViTを生息地データでトレーニングすると、NABirdsとCUB-200で最大0.83点、+0.23点が改善される。
論文 参考訳(メタデータ) (2023-12-22T16:23:22Z) - WildlifeDatasets: An open-source toolkit for animal re-identification [0.0]
WildlifeDatasetsは、生態学者とコンピュータビジョン/機械学習研究者のためのオープンソースのツールキットである。
WildlifeDatasetsはPythonで書かれており、公開されている野生生物データセットに簡単にアクセスできる。
我々は,MegaDescriptorという多種多様な種において,個人を再同定するための最初の基礎モデルを提供する。
論文 参考訳(メタデータ) (2023-11-15T17:08:09Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - Transfer Learning with Semi-Supervised Dataset Annotation for Birdcall
Classification [0.0]
本研究では,BirdCLEF 2023コンペティションのための半教師付きデータセットアノテーションを用いたトランスファー学習について検討する。
提案手法では,既存の市販モデルであるBirdNETとMixITを用いて,コンペティションにおける表現とラベル付けの課題に対処する。
論文 参考訳(メタデータ) (2023-06-29T07:56:27Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Multi-Domain Few-Shot Learning and Dataset for Agricultural Applications [0.0]
そこで本研究では,いくつかのサンプルから異なる害虫,植物,その病原体を自動分類する手法を提案する。
埋め込みを生成する機能抽出器を学習し、Transformerを使って埋め込みを更新する。
モデル全体を包括的に解析するために42の実験を行い、画像分類ベンチマークで最大14%と24%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-09-21T04:20:18Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - Can Giraffes Become Birds? An Evaluation of Image-to-image Translation
for Data Generation [0.0]
新しいデータを生成するためにGAN(Generative Adrial Networks)を用いて画像から画像への変換を行う。
InstaGANという名前の教師なしクロスドメイン翻訳者は、両方のドメイン間の翻訳を学ぶために、キリンと鳥とそれぞれのマスクで訓練された。
元々の空間配置と背景を保存しつつ、原キリン画像からの翻訳を用いて合成鳥画像のデータセットを生成した。
論文 参考訳(メタデータ) (2020-01-10T19:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。