論文の概要: DivShift: Exploring Domain-Specific Distribution Shifts in Large-Scale, Volunteer-Collected Biodiversity Datasets
- arxiv url: http://arxiv.org/abs/2410.19816v3
- Date: Mon, 14 Apr 2025 19:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:49.742962
- Title: DivShift: Exploring Domain-Specific Distribution Shifts in Large-Scale, Volunteer-Collected Biodiversity Datasets
- Title(参考訳): DivShift: 大規模でボランティアが収集した生物多様性データセットにおけるドメイン特有な分布シフトの探索
- Authors: Elena Sierra, Lauren E. Gillespie, Salim Soltani, Moises Exposito-Alonso, Teja Kattenborn,
- Abstract要約: iNaturalistのような、コミュニティが特定した自然界の画像の大規模でボランティアが収集したデータセットは、機械学習手法を用いて種をきめ細かな視覚的分類するために、顕著なパフォーマンス向上を実現している。
ここでは、ドメイン固有の分散シフトが機械学習モデルの性能に与える影響を定量化するフレームワークであるDiversity Shiftを紹介する。
また、ボランティアが収集した生物多様性データに特有のバイアスの効果を診断するために、北米西海岸の約750万枚のiNaturalist画像のキュレートされたデータセットであるDivShift-North American West Coast (DivShift-NAWC)を紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large-scale, volunteer-collected datasets of community-identified natural world imagery like iNaturalist have enabled marked performance gains for fine-grained visual classification of species using machine learning methods. However, such data -- sometimes referred to as citizen science data -- are opportunistic and lack a structured sampling strategy. This volunteer-collected biodiversity data contains geographic, temporal, taxonomic, observers, and sociopolitical biases that can have significant effects on biodiversity model performance, but whose impacts are unclear for fine-grained species recognition performance. Here we introduce Diversity Shift (DivShift), a framework for quantifying the effects of domain-specific distribution shifts on machine learning model performance. To diagnose the performance effects of biases specific to volunteer-collected biodiversity data, we also introduce DivShift - North American West Coast (DivShift-NAWC), a curated dataset of almost 7.5 million iNaturalist images across the western coast of North America partitioned across five types of expert-verified bias. We compare species recognition performance across these bias partitions using a diverse variety of species- and ecosystem-focused accuracy metrics. We observe that these biases confound model performance less than expected from the underlying label distribution shift, and that more data leads to better model performance but the magnitude of these improvements are bias-specific. These findings imply that while the structure within natural world images provides generalization improvements for biodiversity monitoring tasks, the biases present in volunteer-collected biodiversity data can also affect model performance; thus these models should be used with caution in downstream biodiversity monitoring tasks.
- Abstract(参考訳): iNaturalistのような、コミュニティが特定した自然界の画像の大規模でボランティアが収集したデータセットは、機械学習手法を用いて種をきめ細かな視覚的分類するために、顕著なパフォーマンス向上を実現している。
しかし、このようなデータ(市民科学データと呼ばれることもある)は機会的であり、構造化されたサンプリング戦略を欠いている。
このボランティアが収集した生物多様性データには、地理的、時間的、分類学的、観察者、社会政治的バイアスが含まれており、生物多様性モデルのパフォーマンスに大きな影響を及ぼすが、粒度の細かい種認識性能には影響しない。
本稿では、ドメイン固有の分散シフトが機械学習モデルの性能に与える影響を定量化するフレームワークであるDiversity Shift(DivShift)を紹介する。
また、ボランティアが収集した生物多様性データに特有のバイアスの効果を診断するために、北米西海岸の約750万枚のiNaturalist画像のキュレートされたデータセットであるDivShift-North American West Coast (DivShift-NAWC)を紹介した。
我々は,これらの偏見分割における種認識性能を,多様な種と生態系に着目した精度指標を用いて比較した。
我々は,これらのバイアスがラベル分布シフトによって予測されるよりもモデル性能を低下させ,より多くのデータがモデル性能を向上させるが,これらの改善の規模はバイアス特有のものであることを観察した。
これらの結果から, 自然界画像の構造が生物多様性監視タスクの一般化に寄与する一方で, ボランティアが収集した生物多様性データに存在するバイアスがモデル性能に影響を及ぼす可能性が示唆された。
関連論文リスト
- MiTREE: Multi-input Transformer Ecoregion Encoder for Species Distribution Modelling [2.3776390335270694]
我々は、エコリージョンエンコーダを備えたマルチインプット・ビジョン・トランスフォーマー・モデルであるMiTREEを紹介する。
夏期と冬期のサットバードデータセットを用いて,鳥種の出現率を予測することを目的として,本モデルの評価を行った。
論文 参考訳(メタデータ) (2024-12-25T22:20:47Z) - Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。
我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。
また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文 参考訳(メタデータ) (2024-10-14T17:22:55Z) - Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - Fine-tuning of Geospatial Foundation Models for Aboveground Biomass Estimation [2.3429628556845405]
地上バイオマスを推定するための地理空間基盤モデルの微調整は、スクラッチから訓練されたU-Netに匹敵する性能を有する。
また、ブラジルの異なるエコリージョンのスパースラベルを用いた衛星画像の微調整により、モデルの伝達学習能力についても検討する。
論文 参考訳(メタデータ) (2024-06-28T12:54:10Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - Bird Distribution Modelling using Remote Sensing and Citizen Science
data [31.375576105932442]
気候変動は生物多様性の喪失の主要な要因である。
種の分布には大きな知識ギャップがある。
本稿では,コンピュータビジョンを利用した種分散モデルの改良手法を提案する。
論文 参考訳(メタデータ) (2023-05-01T20:27:11Z) - A Comparative Study on Generative Models for High Resolution Solar
Observation Imaging [59.372588316558826]
本研究は、観測された太陽活動状態の背後にあるデータ分布を正確に捉えるために、現在の最先端生成モデルの能力について検討する。
スーパーコンピュータ上での分散トレーニングを用いて、人間の専門家が区別できない高品質なサンプルを生成する、最大1024x1024解像度の生成モデルを訓練することができる。
論文 参考訳(メタデータ) (2023-04-14T14:40:32Z) - Neuroevolution-based Classifiers for Deforestation Detection in Tropical
Forests [62.997667081978825]
森林破壊や荒廃により、毎年何百万ヘクタールもの熱帯林が失われる。
監視・森林破壊検知プログラムは、犯罪者の予防・処罰のための公共政策に加えて、使用されている。
本稿では,熱帯林の森林破壊検出作業におけるニューロ進化技術(NEAT)に基づくパターン分類器の利用を提案する。
論文 参考訳(メタデータ) (2022-08-23T16:04:12Z) - Ensembles of Vision Transformers as a New Paradigm for Automated
Classification in Ecology [0.0]
データ効率のよい画像変換器(DeiTs)のアンサンブルが従来のSOTA(SOTA)よりも大幅に優れていたことを示す。
テストしたすべてのデータセットに対して、新しいSOTAを実現し、以前のSOTAの18.48%から87.50%の誤差を削減した。
論文 参考訳(メタデータ) (2022-03-03T14:16:22Z) - Jalisco's multiclass land cover analysis and classification using a
novel lightweight convnet with real-world multispectral and relief data [51.715517570634994]
本稿では、LC分類と解析を行うために、新しい軽量(89kパラメータのみ)畳み込みニューラルネットワーク(ConvNet)を提案する。
本研究では,実世界のオープンデータソースを3つ組み合わせて13のチャネルを得る。
組込み分析は、いくつかのクラスにおいて限られたパフォーマンスを期待し、最も類似したクラスをグループ化する機会を与えてくれます。
論文 参考訳(メタデータ) (2022-01-26T14:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。