論文の概要: BIOCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models
- arxiv url: http://arxiv.org/abs/2510.20095v1
- Date: Thu, 23 Oct 2025 00:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.030693
- Title: BIOCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models
- Title(参考訳): BIOCAP:生物基盤モデルにおけるラベルを超えて合成カプセルを爆発させる
- Authors: Ziheng Zhang, Xinyue Ma, Arpita Chowdhury, Elizabeth G. Campolongo, Matthew J. Thompson, Net Zhang, Samuel Stevens, Hilmar Lapp, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao, Jianyang Gu,
- Abstract要約: 画像やキャプションは、ある種の潜在形態空間からの相補的なサンプルと見なすことができる。
我々は、ウィキペディア由来の視覚情報と分類群調整形式の例で合成キャプションを生成する。
これらのドメイン固有のコンテキストは幻覚を減らし、正確なインスタンスベースのキャプションを生成するのに役立つ。
- 参考スコア(独自算出の注目度): 40.106880795877466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates descriptive captions as an additional source of supervision for biological multimodal foundation models. Images and captions can be viewed as complementary samples from the latent morphospace of a species, each capturing certain biological traits. Incorporating captions during training encourages alignment with this shared latent structure, emphasizing potentially diagnostic characters while suppressing spurious correlations. The main challenge, however, lies in obtaining faithful, instance-specific captions at scale. This requirement has limited the utilization of natural language supervision in organismal biology compared with many other scientific domains. We complement this gap by generating synthetic captions with multimodal large language models (MLLMs), guided by Wikipedia-derived visual information and taxon-tailored format examples. These domain-specific contexts help reduce hallucination and yield accurate, instance-based descriptive captions. Using these captions, we train BIOCAP (i.e., BIOCLIP with Captions), a biological foundation model that captures rich semantics and achieves strong performance in species classification and text-image retrieval. These results demonstrate the value of descriptive captions beyond labels in bridging biological images with multimodal foundation models.
- Abstract(参考訳): 本研究は,生物のマルチモーダル基盤モデルのための追加的な監督源として記述的キャプションについて検討する。
画像やキャプションは、ある種の潜在形態空間から相補的なサンプルと見なすことができ、それぞれが特定の生物学的特性を捉えている。
トレーニング中にキャプションを組み込むことで、この共有潜在構造との整合が促進され、潜在的な診断文字が強調され、刺激的な相関が抑制される。
しかし、主な課題は、忠実でインスタンス固有のキャプションを大規模に取得することにある。
この要件は、他の多くの科学分野と比較して、生物生物学における自然言語管理の利用を制限している。
このギャップを補うために、ウィキペディア由来の視覚情報と分類調整フォーマットの例によってガイドされた多モーダル大言語モデル(MLLM)を用いた合成キャプションを生成する。
これらのドメイン固有のコンテキストは幻覚を減らし、正確なインスタンスベースの記述キャプションを生成するのに役立つ。
これらのキャプションを用いて,生物基盤モデルであるBIOCAP(BIOCLIP with Captions)を訓練する。
これらの結果は,多モーダル基礎モデルを用いた生体画像のブリッジ化において,ラベル以外の記述キャプションの価値を示すものである。
関連論文リスト
- Hyperbolic Multimodal Representation Learning for Biological Taxonomies [23.639218053531962]
生物多様性研究における分類学的分類は、証拠に基づいて生物学的標本を構造化階層に分類することを含む。
このような階層モデルに対して,双曲型ネットワークがより良い埋め込み空間を提供できるかどうかを検討する。
提案手法は, マルチモーダルな入力を, コントラッシブと新規な重み付きエンテーメントに基づく目的を用いた共有双曲空間に埋め込む。
論文 参考訳(メタデータ) (2025-08-22T18:52:50Z) - Enhancing Biomedical Multi-modal Representation Learning with Multi-scale Pre-training and Perturbed Report Discrimination [13.654729300824227]
大規模にラベル付けされていないバイオメディカルイメージで事前訓練された視覚言語モデルは、一般化可能な意味表現を学ぶ。
本稿では,事前学習型バイオメディカルビジョン言語モデルのための新しい手法,摂動レポート識別法を提案する。
論文 参考訳(メタデータ) (2025-06-02T17:23:25Z) - CrypticBio: A Large Multimodal Dataset for Visually Confusing Biodiversity [3.73232466691291]
我々はCrypticBioについて紹介する。
iNaturalistのコミュニティアノテーターの間では、実際の種誤認の傾向から批判され、CrypticBioは67K種にまたがる52Kの独特な暗号グループを含んでいる。
論文 参考訳(メタデータ) (2025-05-16T14:35:56Z) - Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Text-guided Foundation Model Adaptation for Pathological Image
Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文 参考訳(メタデータ) (2023-07-27T14:44:56Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。