Fugu-MT 論文翻訳(概要): BioCLIP: A Vision Foundation Model for the Tree of Life

論文の概要: BioCLIP: A Vision Foundation Model for the Tree of Life

arxiv url: http://arxiv.org/abs/2311.18803v3
Date: Tue, 14 May 2024 19:53:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 18:12:17.976905
Title: BioCLIP: A Vision Foundation Model for the Tree of Life
Title（参考訳）: BioCLIP:生命樹のビジョン基盤モデル
Authors: Samuel Stevens, Jiaman Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, Yu Su,
Abstract要約: TreeOfLife-10Mは,生物画像のML対応データセットとして最大かつ多種多様である。次に,生命樹の基礎モデルであるBioCLIPを開発した。様々な微細な生物分類タスクに厳格にアプローチをベンチマークする。
参考スコア（独自算出の注目度）: 34.187429586642146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks and find that BioCLIP consistently and substantially outperforms existing baselines (by 16% to 17% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. https://imageomics.github.io/bioclip has models, data and code.
Abstract（参考訳）: ドローンから携帯電話まで、さまざまなカメラで収集された自然界の画像は、生物情報の豊富さを増している。科学と保存のために画像から生物学的に関連のある情報を抽出する計算方法やツール、特にコンピュータビジョンが爆発的に増えている。しかし、これらのほとんどは特定のタスク用に設計され、新しい質問やコンテキスト、データセットに容易に適応または拡張できない、目覚ましいアプローチである。画像上の生物生物学の一般的な疑問に対するビジョンモデルは、タイムリーに必要である。この問題に対処するため、我々は、最も大きく、最も多様な生物学画像のML対応データセットであるTreeOfLife-10Mをキュレートし、リリースする。次に,生命樹の基盤モデルであるBioCLIPを開発し,TreeOfLife-10Mが捉えた生物のユニークな特性,すなわち植物,動物,菌類の豊富で多様なイメージを活用するとともに,リッチな構造化された生物学的知識の活用を可能にした。様々な微細な生物分類タスクに対する我々のアプローチを厳格にベンチマークし、BioCLIPが既存のベースライン(絶対値16%から17%)を一貫して大幅に上回っていることを発見した。内在的評価は、BioCLIPが生命の樹の階層的な表現を学び、その強い一般化性に光を当てたことを示している。 https://imageomics.github.io/bioclipにはモデル、データ、コードがあります。

関連論文リスト

BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning [51.341003735575335]
生体視覚モデルでは,大規模コントラスト視覚言語学習により創発的行動が観察される。我々は、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
論文参考訳（メタデータ） (2025-05-29T17:48:20Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
ViTally Consistent: Scaling Biological Representation Learning for Cell Microscopy [3.432992120614117]
細胞顕微鏡データの基盤モデルとしては,これまでで最大である。従来のViT-L/8 MAEと比較して, 遺伝的摂動の線形分離性は60%向上した。
論文参考訳（メタデータ） (2024-11-04T20:09:51Z)
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images [21.497452524517783]
生物生物学分野における12種類のSOTA(State-of-the-art)VLMsの有効性を,新しいデータセットであるVLM4Bioを用いて評価した。また,幻覚を推論するためのプロンプト技術やテストの適用がVLMの性能に及ぼす影響についても検討した。
論文参考訳（メタデータ） (2024-08-28T23:53:57Z)
Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.949271003068107]
このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
論文参考訳（メタデータ） (2024-06-25T17:09:54Z)
CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale [21.995678534789615]
コントラスト学習を用いて画像、バーコードDNA、および統合埋め込み空間における分類ラベルのテキストベース表現を整列する。本手法は、ゼロショット学習タスクにおいて、従来の単一モダリティアプローチを8%以上精度で上回る。
論文参考訳（メタデータ） (2024-05-27T17:57:48Z)
BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。 BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文参考訳（メタデータ） (2024-02-27T12:43:09Z)
BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。 $mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文参考訳（メタデータ） (2023-10-11T07:57:08Z)
BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。 PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。 PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文参考訳（メタデータ） (2023-03-02T02:20:04Z)
Taxonomy and evolution predicting using deep learning in images [9.98733710208427]
本研究では,キノコ画像認識問題を体系的に研究することで,新しい認識枠組みを創出する。そこで本研究では,DNAにDNAをマッピングする最初の方法として,遺伝子距離にエンコーダマッピング画像を使用し,事前に訓練したデコーダを介してDNAをデコードする手法を提案する。
論文参考訳（メタデータ） (2022-06-28T13:54:14Z)
Learning multi-scale functional representations of proteins from single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文参考訳（メタデータ） (2022-05-24T00:00:07Z)
Automatic image-based identification and biomass estimation of invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文参考訳（メタデータ） (2020-02-05T21:38:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。