論文の概要: Scaling multi-species occupancy models to large citizen science datasets
- arxiv url: http://arxiv.org/abs/2206.08894v1
- Date: Fri, 17 Jun 2022 16:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 16:16:42.273053
- Title: Scaling multi-species occupancy models to large citizen science datasets
- Title(参考訳): 大規模市民科学データセットへの多種多様な占有モデルのスケーリング
- Authors: Martin Ingram, Damjan Vukcevic, Nick Golding
- Abstract要約: 我々は,多種多様な占有モデルを大規模データセットに拡張するための近似ベイズ推定法を開発した。
空間分離テストセット59,338レコードの予測値について検討した。
検出プロセスのモデル化によって合意が大幅に改善され,得られたマップは,高品質なサーベイデータから推定したような専門家マップと密接に一致していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Citizen science datasets can be very large and promise to improve species
distribution modelling, but detection is imperfect, risking bias when fitting
models. In particular, observers may not detect species that are actually
present. Occupancy models can estimate and correct for this observation
process, and multi-species occupancy models exploit similarities in the
observation process, which can improve estimates for rare species. However, the
computational methods currently used to fit these models do not scale to large
datasets. We develop approximate Bayesian inference methods and use graphics
processing units (GPUs) to scale multi-species occupancy models to very large
citizen science data. We fit multi-species occupancy models to one month of
data from the eBird project consisting of 186,811 checklist records comprising
430 bird species. We evaluate the predictions on a spatially separated test set
of 59,338 records, comparing two different inference methods -- Markov chain
Monte Carlo (MCMC) and variational inference (VI) -- to occupancy models fitted
to each species separately using maximum likelihood. We fitted models to the
entire dataset using VI, and up to 32,000 records with MCMC. VI fitted to the
entire dataset performed best, outperforming single-species models on both AUC
(90.4% compared to 88.7%) and on log likelihood (-0.080 compared to -0.085). We
also evaluate how well range maps predicted by the model agree with expert
maps. We find that modelling the detection process greatly improves agreement
and that the resulting maps agree as closely with expert maps as ones estimated
using high quality survey data. Our results demonstrate that multi-species
occupancy models are a compelling approach to model large citizen science
datasets, and that, once the observation process is taken into account, they
can model species distributions accurately.
- Abstract(参考訳): 市民科学データセットは非常に大きく、種分布モデリングを改善することを約束できるが、検出は不完全であり、モデルに適合する際のバイアスを負う。
特に、観測者は実際に存在する種を検出できない。
活動モデルは、この観察過程に対して推定と修正が可能であり、多種占有モデルは、観察過程における類似性を利用して、希少種の推定を改善することができる。
しかし、これらのモデルに適合するために現在使われている計算方法は、大規模なデータセットにスケールしない。
近似ベイズ推定法を開発し,グラフィック処理ユニット(gpu)を用いて,大規模市民科学データに対する多種多様な占有モデルの拡張を行う。
我々は,430種の鳥類からなる186,811のチェックリスト記録からなるeBirdプロジェクトから得られた1ヶ月のデータに,多種占有モデルを適用した。
59,338レコードの空間的に分離されたテストセット上での予測を評価し,マルコフ連鎖モンテカルロ (mcmc) と変分推論 (vi) の2つの異なる推定法と,各種に適応する占有率モデルを比較した。
VIを用いてデータセット全体にモデルを配置し、MCMCで最大32,000レコードを記録しました。
vi データセット全体のパフォーマンスは auc (90.4% 対 88.7%) と log likelihood (-0.080 対 -0.085) の両方において,single-species モデルよりも優れていた。
また,モデルが予測する範囲マップがエキスパートマップとどのように一致しているかを評価する。
検出プロセスのモデル化によって合意が大幅に改善され,得られたマップは,高品質なサーベイデータから推定したような専門家マップと密接に一致していることがわかった。
以上の結果から,多種間占有モデルは,大規模市民科学データセットをモデル化するための説得力のあるアプローチであり,観察過程を考慮すれば,種分布を正確にモデル化できることを示した。
関連論文リスト
- Multi-Scale and Multimodal Species Distribution Modeling [4.022195138381868]
種分布モデル (SDM) は, 発生データと環境変数の分布を予測することを目的としている。
SDMへのディープラーニングの最近の応用は、特に空間データを含む新しい道を可能にしている。
我々はSDMのモジュール構造を開発し、シングルスケールとマルチスケールの両方でスケールの効果をテストする。
GeoLifeCLEF 2023ベンチマークの結果は、マルチモーダルデータとマルチスケール表現の学習を考えると、より正確なモデルが得られることを示している。
論文 参考訳(メタデータ) (2024-11-06T15:57:20Z) - More precise edge detections [0.0]
エッジ検出 (ED) はコンピュータビジョンの基本的なタスクである。
現在のモデルは相変わらず不満足な精度に悩まされている。
より正確な予測のためのモデルアーキテクチャはまだ調査が必要である。
論文 参考訳(メタデータ) (2024-07-29T13:24:55Z) - LD-SDM: Language-Driven Hierarchical Species Distribution Modeling [9.620416509546471]
我々は,世界規模の存在のみのデータを用いた種分布モデリングの問題に焦点をあてる。
種間の強い暗黙の関係を捉えるため,大きな言語モデルを用いて,種の分類学的階層を符号化した。
そこで本研究では,種分布モデルの評価が可能な近接認識評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-13T18:11:37Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Spatial Implicit Neural Representations for Global-Scale Species Mapping [72.92028508757281]
ある種が観察された場所の集合を考えると、その種がどこにいても存在しないかを予測するためのモデルを構築することが目的である。
従来の手法は、新たな大規模クラウドソースデータセットを活用するのに苦労している。
本研究では,47k種の地理的範囲を同時に推定するために,空間入射ニューラル表現(SINR)を用いる。
論文 参考訳(メタデータ) (2023-06-05T03:36:01Z) - Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文 参考訳(メタデータ) (2023-02-09T18:59:18Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。