論文の概要: TaxaAdapter: Vision Taxonomy Models are Key to Fine-grained Image Generation over the Tree of Life
- arxiv url: http://arxiv.org/abs/2603.26128v1
- Date: Fri, 27 Mar 2026 07:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.383942
- Title: TaxaAdapter: Vision Taxonomy Models are Key to Fine-grained Image Generation over the Tree of Life
- Title(参考訳): TaxaAdapter: 視覚分類モデルが生命の樹上でのきめ細かい画像生成の鍵となる
- Authors: Mridul Khurana, Amin Karimi Monsefi, Justin Lee, Medha Sawhney, David Carlyn, Julia Chae, Jianyang Gu, Rajiv Ramnath, Sara Beery, Wei-Lun Chao, Anuj Karpatne, Cheng Zhang,
- Abstract要約: TaxaAdapterは、視覚分類モデル(Vision Taxonomy Models, VTM)を組み込んだ、シンプルで軽量なアプローチである。
本手法は,凍結したテキスト-画像拡散モデルにVTM埋め込みを注入し,種レベルの忠実度を向上する。
以上の結果から,VTMはスケーラブルできめ細かな種生成の鍵となる要素であることが示唆された。
- 参考スコア(独自算出の注目度): 39.89855645414284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately generating images across the Tree of Life is difficult: there are over 10M distinct species on Earth, many of which differ only by subtle visual traits. Despite the remarkable progress in text-to-image synthesis, existing models often fail to capture the fine-grained visual cues that define species identity, even when their outputs appear photo-realistic. To this end, we propose TaxaAdapter, a simple and lightweight approach that incorporates Vision Taxonomy Models (VTMs) such as BioCLIP to guide fine-grained species generation. Our method injects VTM embeddings into a frozen text-to-image diffusion model, improving species-level fidelity while preserving flexible text control over attributes such as pose, style, and background. Extensive experiments demonstrate that TaxaAdapter consistently improves morphology fidelity and species-identity accuracy over strong baselines, with a cleaner architecture and training recipe. To better evaluate these improvements, we also introduce a multimodal Large Language Model-based metric that summarizes trait-level descriptions from generated and real images, providing a more interpretable measure of morphological consistency. Beyond this, we observe that TaxaAdapter exhibits strong generalization capabilities, enabling species synthesis in challenging regimes such as few-shot species with only a handful of training images and even species unseen during training. Overall, our results highlight that VTMs are a key ingredient for scalable, fine-grained species generation.
- Abstract(参考訳): 地球上には10万以上の異なる種があり、その多くは微妙な視覚的特徴によってのみ異なる。
テキスト対画像合成の顕著な進歩にもかかわらず、既存のモデルは、その出力がフォトリアリスティックに見える場合でも、種同一性を定義する細粒度の視覚的手がかりを捉えることができないことが多い。
そこで本研究では,BioCLIPなどのビジョン分類モデル(VTM)を組み込んだ,簡便で軽量なアプローチであるTaxaAdapterを提案する。
提案手法は,VTM埋め込みを凍結したテキスト-画像拡散モデルに注入し,ポーズ,スタイル,背景などの属性に対する柔軟なテキスト制御を保ちながら,種レベルの忠実度を向上させる。
広範囲にわたる実験により、TaxaAdapterは、よりクリーンなアーキテクチャとトレーニングレシピにより、強力なベースラインよりも、形態的忠実度と種同一性精度を一貫して改善することが示された。
これらの改善をよりよく評価するために、生成画像と実画像から特徴レベルの記述を要約したマルチモーダルなLarge Language Modelベースのメトリクスを導入し、形態的整合性のより解釈可能な尺度を提供する。
このほか、TaxaAdapterは強力な一般化能力を示しており、少数の訓練画像や訓練中に見つからない種でさえも、少数ショット種のような挑戦的な状況下で種合成を可能にする。
全体としては、VTMはスケーラブルできめ細かい種生成の鍵となる要素である。
関連論文リスト
- TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation [27.543784765817513]
TaxaDiffusionは、拡散モデルのための分類学的インフォームドトレーニングフレームワークである。
動物像の微細化を図り、形態的・身元的精度の高い画像を生成する。
論文 参考訳(メタデータ) (2025-06-02T17:43:55Z) - Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [36.59100450109841]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。