論文の概要: BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning
- arxiv url: http://arxiv.org/abs/2505.23883v1
- Date: Thu, 29 May 2025 17:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.601349
- Title: BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning
- Title(参考訳): BioCLIP 2: 階層的コントラスト学習のスケーリングによる創発的特性
- Authors: Jianyang Gu, Samuel Stevens, Elizabeth G Campolongo, Matthew J Thompson, Net Zhang, Jiaman Wu, Andrei Kopanev, Zheda Mai, Alexander E. White, James Balhoff, Wasila Dahdul, Daniel Rubenstein, Hilmar Lapp, Tanya Berger-Wolf, Wei-Lun Chao, Yu Su,
- Abstract要約: 生体視覚モデルでは,大規模コントラスト視覚言語学習により創発的行動が観察される。
我々は、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。
得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
- 参考スコア(独自算出の注目度): 51.341003735575335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models trained at scale exhibit remarkable emergent behaviors, learning new capabilities beyond their initial training objectives. We find such emergent behaviors in biological vision models via large-scale contrastive vision-language training. To achieve this, we first curate TreeOfLife-200M, comprising 214 million images of living organisms, the largest and most diverse biological organism image dataset to date. We then train BioCLIP 2 on TreeOfLife-200M to distinguish different species. Despite the narrow training objective, BioCLIP 2 yields extraordinary accuracy when applied to various biological visual tasks such as habitat classification and trait prediction. We identify emergent properties in the learned embedding space of BioCLIP 2. At the inter-species level, the embedding distribution of different species aligns closely with functional and ecological meanings (e.g., beak sizes and habitats). At the intra-species level, instead of being diminished, the intra-species variations (e.g., life stages and sexes) are preserved and better separated in subspaces orthogonal to inter-species distinctions. We provide formal proof and analyses to explain why hierarchical supervision and contrastive objectives encourage these emergent properties. Crucially, our results reveal that these properties become increasingly significant with larger-scale training data, leading to a biologically meaningful embedding space.
- Abstract(参考訳): 大規模にトレーニングされた基礎モデルは、目覚ましい行動を示し、最初のトレーニング目標を超えて新しい能力を学ぶ。
生体視覚モデルでは,大規模なコントラスト視覚言語学習を通じて,このような創発的な行動が観察される。
そこで本研究では,これまでで最大かつ最も多様な生物画像データセットである,生物の2億1400万枚の画像からなるTreeOfLife-200Mを最初にキュレートした。
次に、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。
訓練目標が狭いにもかかわらず、BioCLIP 2は生息地分類や特性予測といった様々な生物学的視覚タスクに適用した場合、異常な精度が得られる。
得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
種間レベルでは、異なる種の埋め込み分布は機能的および生態学的意味(例えば、くちばしの大きさ、生息地)と密接に一致している。
種内レベルでは、減らされる代わりに、種内変異(例えば、寿命、性別)が保存され、種間区別に直交する部分空間でよりよく分離される。
我々は、なぜ階層的な監督と対照的な目的がこれらの創発的特性を促進するのかを説明するための公式な証明と分析を提供する。
重要なことは、これらの特性がより大規模なトレーニングデータによってますます重要になってきており、生物学的に意味のある埋め込み空間に繋がることを示している。
関連論文リスト
- CrypticBio: A Large Multimodal Dataset for Visually Confusing Biodiversity [3.73232466691291]
我々はCrypticBioについて紹介する。
iNaturalistのコミュニティアノテーターの間では、実際の種誤認の傾向から批判され、CrypticBioは67K種にまたがる52Kの独特な暗号グループを含んでいる。
論文 参考訳(メタデータ) (2025-05-16T14:35:56Z) - BeetleVerse: A study on taxonomic classification of ground beetles [0.310688583550805]
地上の甲虫は、非常に敏感で特異な生物学的指標であり、生物多様性のモニタリングに不可欠である。
本稿では,4つの多種多様な長い尾を持つデータセットの分類分類に関する12の視覚モデルを評価する。
論文 参考訳(メタデータ) (2025-04-18T01:06:37Z) - G2PDiffusion: Cross-Species Genotype-to-Phenotype Prediction via Evolutionary Diffusion [108.94237816552024]
本稿では,DNAから形態像を生成する最初の遺伝子型対フェノタイプ拡散モデル(G2PDiffusion)を提案する。
本モデルは,1)保存および共進化パターンを識別するMSA検索エンジン,2)複雑なジェノタイプ-環境相互作用を効果的にモデル化する環境対応MSA条件エンコーダ,3)遺伝子型-フェノタイプ整合性を改善する適応型表現的アライメントモジュールを含む。
論文 参考訳(メタデータ) (2025-02-07T06:16:31Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - DivShift: Exploring Domain-Specific Distribution Shifts in Large-Scale, Volunteer-Collected Biodiversity Datasets [0.0]
iNaturalistのような、コミュニティが特定した自然界の画像の大規模でボランティアが収集したデータセットは、機械学習手法を用いて種をきめ細かな視覚的分類するために、顕著なパフォーマンス向上を実現している。
ここでは、ドメイン固有の分散シフトが機械学習モデルの性能に与える影響を定量化するフレームワークであるDiversity Shiftを紹介する。
また、ボランティアが収集した生物多様性データに特有のバイアスの効果を診断するために、北米西海岸の約750万枚のiNaturalist画像のキュレートされたデータセットであるDivShift-North American West Coast (DivShift-NAWC)を紹介した。
論文 参考訳(メタデータ) (2024-10-17T23:56:30Z) - BioCLIP: A Vision Foundation Model for the Tree of Life [34.187429586642146]
TreeOfLife-10Mは,生物画像のML対応データセットとして最大かつ多種多様である。
次に,生命樹の基礎モデルであるBioCLIPを開発した。
様々な微細な生物分類タスクに厳格にアプローチをベンチマークする。
論文 参考訳(メタデータ) (2023-11-30T18:49:43Z) - Discovering Novel Biological Traits From Images Using Phylogeny-Guided
Neural Networks [10.372001949268636]
本稿では,特徴ラベルに依存しない画像から進化的特徴を直接発見するための新しい手法を提案する。
提案手法であるPhylo-NNは、生物の画像を量子化された特徴ベクトルの列にエンコードする。
本研究は,多くの下流タスクにおいて生物学的に有意義な結果を生み出すためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-05T20:22:05Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z) - Transferring Dense Pose to Proximal Animal Classes [83.84439508978126]
より一般的な対象検出器やセグメンタなどと同様に、密集したポーズ認識に存在する知識を、他のクラスにおける密集したポーズ認識の問題に移すことが可能であることを示す。
我々は、人間と幾何学的に整合した新しい動物のためのDensePoseモデルを確立することでこれを行う。
また、クラスチンパンジーにDensePoseの方法でラベル付けされた2つのベンチマークデータセットを導入し、アプローチを評価するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-02-28T21:43:53Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。