論文の概要: BioTrove: A Large Curated Image Dataset Enabling AI for Biodiversity
- arxiv url: http://arxiv.org/abs/2406.17720v2
- Date: Mon, 27 Jan 2025 20:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:39:05.276168
- Title: BioTrove: A Large Curated Image Dataset Enabling AI for Biodiversity
- Title(参考訳): BioTrove:生物多様性のための大規模な画像データセット認識AI
- Authors: Chih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab, Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh, Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian,
- Abstract要約: BioTroveは、生物多様性においてAIアプリケーションを前進させるために設計された最大のデータセットである。
161.9万枚の画像があり、前例のないスケールと3つの主要王国の多様性を提供している。
それぞれの画像には、科学的名前、分類学的階層、一般的な名前が注釈付けされている。
- 参考スコア(独自算出の注目度): 14.949271003068107
- License:
- Abstract: We introduce BioTrove, the largest publicly accessible dataset designed to advance AI applications in biodiversity. Curated from the iNaturalist platform and vetted to include only research-grade data, BioTrove contains 161.9 million images, offering unprecedented scale and diversity from three primary kingdoms: Animalia ("animals"), Fungi ("fungi"), and Plantae ("plants"), spanning approximately 366.6K species. Each image is annotated with scientific names, taxonomic hierarchies, and common names, providing rich metadata to support accurate AI model development across diverse species and ecosystems. We demonstrate the value of BioTrove by releasing a suite of CLIP models trained using a subset of 40 million captioned images, known as BioTrove-Train. This subset focuses on seven categories within the dataset that are underrepresented in standard image recognition models, selected for their critical role in biodiversity and agriculture: Aves ("birds"), Arachnida ("spiders/ticks/mites"), Insecta ("insects"), Plantae ("plants"), Fungi ("fungi"), Mollusca ("snails"), and Reptilia ("snakes/lizards"). To support rigorous assessment, we introduce several new benchmarks and report model accuracy for zero-shot learning across life stages, rare species, confounding species, and multiple taxonomic levels. We anticipate that BioTrove will spur the development of AI models capable of supporting digital tools for pest control, crop monitoring, biodiversity assessment, and environmental conservation. These advancements are crucial for ensuring food security, preserving ecosystems, and mitigating the impacts of climate change. BioTrove is publicly available, easily accessible, and ready for immediate use.
- Abstract(参考訳): 我々は、生物多様性におけるAI応用を促進するために設計された、公開可能な最大のデータセットであるBioTroveを紹介する。
iNaturalistプラットフォームからキュレーションされ、研究レベルのデータのみを含むよう拒否されたBioTroveには1611.9万の画像が含まれており、アニマル(animals)、ファンギ(fuungi)、植物( Plantae)の3つの主要王国から前例のないスケールと多様性を提供している。
各画像には、科学的名前、分類学的階層、および一般的な名前が注釈付けされており、多様な種や生態系にわたる正確なAIモデル開発をサポートするための豊富なメタデータを提供する。
我々は,BioTrove-Trainとして知られる4000万のキャプション画像のサブセットを用いてトレーニングされたCLIPモデルをリリースすることで,BioTroveの価値を実証する。
Aves(鳥類)、Arachnida(スパイダーズ/ティクス/ミツ)、Insecta(昆虫)、Planae(植物)、Fungi(フングイ)、Molusca(鼻)、Reptilia(鼻)。
厳密な評価を支援するため,生活段階,希少種,共生種,複数の分類レベルにわたるゼロショット学習のための新しいベンチマークとモデル精度を報告した。
我々はBioTroveが、害虫対策、作物モニタリング、生物多様性評価、環境保全のためのデジタルツールをサポートするAIモデルの開発を加速することを期待している。
これらの進歩は、食料安全保障の確保、生態系の保全、気候変動の影響緩和に不可欠である。
BioTroveは公開されており、簡単にアクセスできる。
関連論文リスト
- Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。
我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。
また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文 参考訳(メタデータ) (2024-10-14T17:22:55Z) - Insect Identification in the Wild: The AMI Dataset [35.41544843896443]
昆虫は世界の生物多様性の半分を占めるが、世界の昆虫の多くは姿を消している。
この危機にもかかわらず、昆虫の多様性と豊かさに関するデータはいまだに不十分である。
昆虫認識のための大規模な機械学習ベンチマークを初めて提供します。
論文 参考訳(メタデータ) (2024-06-18T09:57:02Z) - BioCLIP: A Vision Foundation Model for the Tree of Life [34.187429586642146]
TreeOfLife-10Mは,生物画像のML対応データセットとして最大かつ多種多様である。
次に,生命樹の基礎モデルであるBioCLIPを開発した。
様々な微細な生物分類タスクに厳格にアプローチをベンチマークする。
論文 参考訳(メタデータ) (2023-11-30T18:49:43Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - Species196: A One-Million Semi-supervised Dataset for Fine-grained
Species Recognition [30.327642724046903]
種196(英: species 196)は、196科の外来種の大規模な半教師付きデータセットである。
専門家レベルの正確なアノテーションである種196-Lと、侵入種196-Uの1.2M以上のラベルのない画像を集めている。
論文 参考訳(メタデータ) (2023-09-25T14:46:01Z) - A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset [18.211840156134784]
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルの訓練を目的とした,100万画像データセットを提案する。
このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるだろう。
論文 参考訳(メタデータ) (2023-07-19T20:54:08Z) - Spatial Implicit Neural Representations for Global-Scale Species Mapping [72.92028508757281]
ある種が観察された場所の集合を考えると、その種がどこにいても存在しないかを予測するためのモデルを構築することが目的である。
従来の手法は、新たな大規模クラウドソースデータセットを活用するのに苦労している。
本研究では,47k種の地理的範囲を同時に推定するために,空間入射ニューラル表現(SINR)を用いる。
論文 参考訳(メタデータ) (2023-06-05T03:36:01Z) - Ensembles of Vision Transformers as a New Paradigm for Automated
Classification in Ecology [0.0]
データ効率のよい画像変換器(DeiTs)のアンサンブルが従来のSOTA(SOTA)よりも大幅に優れていたことを示す。
テストしたすべてのデータセットに対して、新しいSOTAを実現し、以前のSOTAの18.48%から87.50%の誤差を削減した。
論文 参考訳(メタデータ) (2022-03-03T14:16:22Z) - Florida Wildlife Camera Trap Dataset [48.99466876948454]
フロリダ州南西部の2つの異なる場所から収集された野生生物カメラトラップ分類データセットについて紹介する。
データセットは104,495枚の画像からなり、視覚的に類似した種、様々な照明条件、スキュードクラス分布、絶滅危惧種のサンプルを含む。
論文 参考訳(メタデータ) (2021-06-23T18:53:15Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。