論文の概要: A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset
- arxiv url: http://arxiv.org/abs/2307.10455v1
- Date: Wed, 19 Jul 2023 20:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:40:40.729018
- Title: A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset
- Title(参考訳): 世界規模の生物多様性評価への一歩:BIOSCAN-1M昆虫データセット
- Authors: Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva,
Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho,
Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk
Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth
- Abstract要約: 本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルの訓練を目的とした,100万画像データセットを提案する。
このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるだろう。
- 参考スコア(独自算出の注目度): 20.38165630291265
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In an effort to catalog insect biodiversity, we propose a new large dataset
of hand-labelled insect images, the BIOSCAN-Insect Dataset. Each record is
taxonomically classified by an expert, and also has associated genetic
information including raw nucleotide barcode sequences and assigned barcode
index numbers, which are genetically-based proxies for species classification.
This paper presents a curated million-image dataset, primarily to train
computer-vision models capable of providing image-based taxonomic assessment,
however, the dataset also presents compelling characteristics, the study of
which would be of interest to the broader machine learning community. Driven by
the biological nature inherent to the dataset, a characteristic long-tailed
class-imbalance distribution is exhibited. Furthermore, taxonomic labelling is
a hierarchical classification scheme, presenting a highly fine-grained
classification problem at lower levels. Beyond spurring interest in
biodiversity research within the machine learning community, progress on
creating an image-based taxonomic classifier will also further the ultimate
goal of all BIOSCAN research: to lay the foundation for a comprehensive survey
of global biodiversity. This paper introduces the dataset and explores the
classification task through the implementation and analysis of a baseline
classifier.
- Abstract(参考訳): そこで本研究では,昆虫の生物多様性のカタログ化を目的として,昆虫画像の大規模データセットBIOSCAN-Insect Datasetを提案する。
各レコードは、専門家によって分類され、種分類のための遺伝子ベースのプロキシである生のヌクレオチドバーコード配列や割り当てられたバーコードインデックス番号を含む関連する遺伝情報も持っている。
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルのトレーニングを主目的とする,百万画像データセットを提案する。
データセット固有の生物学的性質に基づいて、特徴的な長い尾を持つクラスバランス分布を示す。
さらに分類学的なラベリングは階層的な分類スキームであり、低いレベルで非常にきめ細かい分類問題を引き起こす。
機械学習コミュニティにおける生物多様性研究への関心の高まりに加え、画像に基づく分類器の作成の進展は、すべてのBIOSCAN研究の最終的な目標である、グローバルな生物多様性に関する総合的な調査の基盤を築き上げることになる。
本稿では,データセットを紹介し,ベースライン分類器の実装と解析を通じて分類タスクを検討する。
関連論文リスト
- BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity [19.003642885871546]
BIOSCAN-5Mは、500万以上の昆虫の標本のマルチモーダル情報を含む包括的データセットである。
マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:45:21Z) - Insect Identification in the Wild: The AMI Dataset [35.41544843896443]
昆虫は世界の生物多様性の半分を占めるが、世界の昆虫の多くは姿を消している。
この危機にもかかわらず、昆虫の多様性と豊かさに関するデータはいまだに不十分である。
昆虫認識のための大規模な機械学習ベンチマークを初めて提供します。
論文 参考訳(メタデータ) (2024-06-18T09:57:02Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - TEPI: Taxonomy-aware Embedding and Pseudo-Imaging for Scarcely-labeled
Zero-shot Genome Classification [0.0]
種の遺伝コードまたはゲノムは、貴重な進化的、生物学的、系統学的情報をコードする。
従来のバイオインフォマティクスツールは顕著な進歩を遂げているが、スケーラビリティに欠け、計算コストも高い。
TEPI, 分類認識型埋め込み, Pseudo-Imaging を用いたゼロショット学習によりこの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:16:28Z) - BI-LAVA: Biocuration with Hierarchical Image Labeling through Active
Learning and Visual Analysis [2.859324824091085]
BI-LAVAは階層構造の科学画像を整理するシステムである。
イメージラベルの小さなセット、階層的なイメージ分類器のセット、そしてモデルビルダーが不完全なグランドトルースラベルを扱うのを助けるためにアクティブラーニングを使用する。
評価の結果,本手法は分類学におけるクラスの特徴を理解する上で,ドメインエキスパートを効果的に支援していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T19:36:19Z) - Information Gain Sampling for Active Learning in Medical Image
Classification [3.1619162190378787]
本研究は,ラベル付け対象プールからの最適な画像選択を誘導する情報理論のアクティブラーニングフレームワークを提案する。
2つの異なる医用画像分類データセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-01T16:25:53Z) - Structure-Enhanced Meta-Learning For Few-Shot Graph Classification [53.54066611743269]
本研究では,数点グラフ分類の解法のためのメトリベースメタラーニングの可能性を検討する。
SMFGINというGINの実装は、ChemblとTRIANGLESの2つのデータセットでテストされている。
論文 参考訳(メタデータ) (2021-03-05T09:03:03Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。