論文の概要: BioCube: A Multimodal Dataset for Biodiversity Research
- arxiv url: http://arxiv.org/abs/2505.11568v2
- Date: Tue, 20 May 2025 13:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.401294
- Title: BioCube: A Multimodal Dataset for Biodiversity Research
- Title(参考訳): BioCube: 生物多様性研究のためのマルチモーダルデータセット
- Authors: Stylianos Stasinos, Martino Mensio, Elena Lazovik, Athanasios Trantas,
- Abstract要約: 生態学および生物多様性研究のための微細なグローバルデータセットであるBioCubeを紹介する。
BioCubeは、画像、オーディオ記録、説明、環境DNA、植生指標、農業、森林、土地の指標、高解像度気候変数を通じて種を観察する。
すべての観測は、2000年から2020年の間、WGS84の測地システムの下で測地的に一致している。
- 参考スコア(独自算出の注目度): 0.6749750044497732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biodiversity research requires complete and detailed information to study ecosystem dynamics at different scales. Employing data-driven methods like Machine Learning is getting traction in ecology and more specific biodiversity, offering alternative modelling pathways. For these methods to deliver accurate results there is the need for large, curated and multimodal datasets that offer granular spatial and temporal resolutions. In this work, we introduce BioCube, a multimodal, fine-grained global dataset for ecology and biodiversity research. BioCube incorporates species observations through images, audio recordings and descriptions, environmental DNA, vegetation indices, agricultural, forest, land indicators, and high-resolution climate variables. All observations are geospatially aligned under the WGS84 geodetic system, spanning from 2000 to 2020. The dataset will become available at https://huggingface.co/datasets/BioDT/BioCube while the acquisition and processing code base at https://github.com/BioDT/bfm-data.
- Abstract(参考訳): 生物多様性の研究は、異なるスケールで生態系のダイナミクスを研究するために、完全かつ詳細な情報を必要とする。
機械学習のようなデータ駆動の手法を採用することは、生態学やより特定の生物多様性に牽引され、代替のモデリングパスを提供する。
これらの手法が正確な結果をもたらすためには、空間的および時間的解像度の細かい大きな、キュレートされた、マルチモーダルなデータセットが必要である。
本研究では,生物多様性研究のためのマルチモーダルできめ細かなグローバルデータセットであるBioCubeを紹介する。
BioCubeは、画像、オーディオ記録、説明、環境DNA、植生指標、農業、森林、土地の指標、高解像度気候変数を通じて種を観察する。
すべての観測は、2000年から2020年の間、WGS84の測地システムの下で測地的に一致している。
データセットはhttps://huggingface.co/datasets/BioDT/BioCubeで、取得と処理はhttps://github.com/BioDT/bfm-dataで提供される。
関連論文リスト
- SSL4Eco: A Global Seasonal Dataset for Geospatial Foundation Models in Ecology [3.743127390843568]
自己教師付き学習は、ラベルのないデータからの学習表現を可能にした。
これらのモデルは、高い人間の活動領域に偏ったデータセットに基づいて訓練されることが多い。
植生の季節性を世界規模でより正確に把握するために, 簡易な表現インフォームドサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-25T10:58:44Z) - Large Language Models for Bioinformatics [58.892165394487414]
本調査はバイオインフォマティクス特化言語モデル(BioLM)の進化,分類,特徴の識別に焦点をあてる。
疾患診断, 薬物発見, ワクチン開発などの重要な分野において, バイオフィルムの幅広い応用について検討する。
データプライバシやセキュリティ上の問題,解釈可能性の問題,トレーニングデータやモデル出力のバイアス,ドメイン適応複雑性など,BioLMに固有の重要な課題や制限を特定します。
論文 参考訳(メタデータ) (2025-01-10T01:43:05Z) - Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。
我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。
また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文 参考訳(メタデータ) (2024-10-14T17:22:55Z) - BioTrove: A Large Curated Image Dataset Enabling AI for Biodiversity [14.949271003068107]
BioTroveは、生物多様性においてAIアプリケーションを前進させるために設計された最大のデータセットである。
161.9万枚の画像があり、前例のないスケールと3つの主要王国の多様性を提供している。
それぞれの画像には、科学的名前、分類学的階層、一般的な名前が注釈付けされている。
論文 参考訳(メタデータ) (2024-06-25T17:09:54Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset [18.211840156134784]
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルの訓練を目的とした,100万画像データセットを提案する。
このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるだろう。
論文 参考訳(メタデータ) (2023-07-19T20:54:08Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。