論文の概要: TerraIncognita: A Dynamic Benchmark for Species Discovery Using Frontier Models
- arxiv url: http://arxiv.org/abs/2506.03182v1
- Date: Thu, 29 May 2025 15:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.91767
- Title: TerraIncognita: A Dynamic Benchmark for Species Discovery Using Frontier Models
- Title(参考訳): TerraIncognita:フロンティアモデルを用いた種発見のための動的ベンチマーク
- Authors: Shivani Chiranjeevi, Hossein Zaremehrjerdi, Zi K. Deng, Talukder Z. Jubery, Ari Grele, Arti Singh, Asheesh K Singh, Soumik Sarkar, Nirav Merchant, Harold F. Greeney, Baskar Ganapathysubramanian, Chinmay Hegde,
- Abstract要約: 昆虫種発見の現在の方法は、手動、遅く、分類学の専門知識によって厳しく制限されている。
本稿では,現状のマルチモーダルモデルを評価するためのベンチマークであるTerraIncognitaを紹介する。
我々のベンチマークデータセットは、フロンティアAIモデルとして知られる昆虫の注釈付き画像と、希少であまり知られていない種の画像を組み合わせたものです。
- 参考スコア(独自算出の注目度): 15.272215321742802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid global loss of biodiversity, particularly among insects, represents an urgent ecological crisis. Current methods for insect species discovery are manual, slow, and severely constrained by taxonomic expertise, hindering timely conservation actions. We introduce TerraIncognita, a dynamic benchmark designed to evaluate state-of-the-art multimodal models for the challenging problem of identifying unknown, potentially undescribed insect species from image data. Our benchmark dataset combines a mix of expertly annotated images of insect species likely known to frontier AI models, and images of rare and poorly known species, for which few/no publicly available images exist. These images were collected from underexplored biodiversity hotspots, realistically mimicking open-world discovery scenarios faced by ecologists. The benchmark assesses models' proficiency in hierarchical taxonomic classification, their capability to detect and abstain from out-of-distribution (OOD) samples representing novel species, and their ability to generate explanations aligned with expert taxonomic knowledge. Notably, top-performing models achieve over 90\% F1 at the Order level on known species, but drop below 2\% at the Species level, highlighting the sharp difficulty gradient from coarse to fine taxonomic prediction (Order $\rightarrow$ Family $\rightarrow$ Genus $\rightarrow$ Species). TerraIncognita will be updated regularly, and by committing to quarterly dataset expansions (of both known and novel species), will provide an evolving platform for longitudinal benchmarking of frontier AI methods. All TerraIncognita data, results, and future updates are available \href{https://baskargroup.github.io/TerraIncognita/}{here}.
- Abstract(参考訳): 生物多様性の急激な世界的喪失は、特に昆虫の間で急激な生態系危機を引き起こしている。
昆虫種発見の現在の手法は、手動、遅く、分類学の専門知識によって厳しく制約されており、タイムリーな保存行動を妨げている。
TerraIncognitaは、画像データから未知の、潜在的に記載されていない昆虫種を識別する難しい問題に対して、最先端のマルチモーダルモデルを評価するために設計された動的ベンチマークである。
我々のベンチマークデータセットは、フロンティアAIモデルで知られている可能性のある昆虫の注釈付き画像と、希少で未知の種の画像を組み合わせています。
これらの画像は、未発見の生物多様性ホットスポットから収集され、生態学者が直面しているオープンワールドの発見シナリオを現実的に模倣したものです。
このベンチマークは、階層的な分類分類におけるモデルの習熟度、新しい種を表すアウト・オブ・ディストリビューション(OOD)サンプルの検出と吸収能力、および専門家の分類学知識に沿った説明を生成する能力を評価する。
特に、トップパフォーマンスモデルでは、既知の種のオーダーレベルでは90%以上F1を達成するが、種レベルでは2倍以下に低下し、粗いものから微妙な分類学予測(Order $\rightarrow$ Family $\rightarrow$ Genus $\rightarrow$ species)への急激な困難さが浮き彫りになる。
TerraIncognitaは定期的に更新され、四半期毎にデータセットの拡張(既知のものと新しいものの両方)をコミットすることで、フロンティアAIメソッドの時系列ベンチマークのためのプラットフォームが進化する。
TerraIncognitaのデータ、結果、将来の更新はすべて、href{https://baskargroup.github.io/TerraIncognita/}{here}で利用可能である。
関連論文リスト
- BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning [51.341003735575335]
生体視覚モデルでは,大規模コントラスト視覚言語学習により創発的行動が観察される。
我々は、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。
得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
論文 参考訳(メタデータ) (2025-05-29T17:48:20Z) - Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - Few-shot Species Range Estimation [61.60698161072356]
特定の種が地球上でどこで発見できるかを知ることは、生態学の研究と保全に不可欠である。
我々は、限られたデータから種の範囲を正確に推定することの難しさに対処するために、数発の種範囲推定の新しいアプローチを概説する。
推測において,本モデルでは,テキストや画像などの任意のメタデータとともに,空間的位置のセットを入力として取り,フィードフォワード方式で未確認種の範囲を予測できる種を出力する。
論文 参考訳(メタデータ) (2025-02-20T19:13:29Z) - LD-SDM: Language-Driven Hierarchical Species Distribution Modeling [9.620416509546471]
我々は,世界規模の存在のみのデータを用いた種分布モデリングの問題に焦点をあてる。
種間の強い暗黙の関係を捉えるため,大きな言語モデルを用いて,種の分類学的階層を符号化した。
そこで本研究では,種分布モデルの評価が可能な近接認識評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-13T18:11:37Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - Species196: A One-Million Semi-supervised Dataset for Fine-grained
Species Recognition [30.327642724046903]
種196(英: species 196)は、196科の外来種の大規模な半教師付きデータセットである。
専門家レベルの正確なアノテーションである種196-Lと、侵入種196-Uの1.2M以上のラベルのない画像を集めている。
論文 参考訳(メタデータ) (2023-09-25T14:46:01Z) - Spatial Implicit Neural Representations for Global-Scale Species Mapping [72.92028508757281]
ある種が観察された場所の集合を考えると、その種がどこにいても存在しないかを予測するためのモデルを構築することが目的である。
従来の手法は、新たな大規模クラウドソースデータセットを活用するのに苦労している。
本研究では,47k種の地理的範囲を同時に推定するために,空間入射ニューラル表現(SINR)を用いる。
論文 参考訳(メタデータ) (2023-06-05T03:36:01Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。