論文の概要: DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery
- arxiv url: http://arxiv.org/abs/2604.24029v1
- Date: Mon, 27 Apr 2026 04:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.736897
- Title: DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery
- Title(参考訳): DeepTaxon: 単一種識別と発見のための解釈可能な検索拡張マルチモーダルフレームワーク
- Authors: Jiawei Wang, Ming Lei, Yaning Yang, Xinyan Lin, Yuquan Le, Qiwei Ma, Zhiwei Xu, Zheqi Lv, Yuchen Ang, Zhe Quan, Tat-Seng Chua,
- Abstract要約: DeepTaxonは、種同定と発見を統一する検索強化フレームワークである。
我々は、合成検索強化データに基づく教師付き微調整により、このフレームワークを訓練する。
大規模な分布内ベンチマークと6つの分布外データセットの実験は、識別と発見の両方において一貫した改善を示している。
- 参考スコア(独自算出の注目度): 45.28140700804044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying species in biology among tens of thousands of visually similar taxa while discovering unknown species in open-world environments remains a fundamental challenge in biodiversity research. Current methods treat identification and discovery as separate problems, with classification models assuming closed sets and discovery relying on threshold-based rejection. Here we present DeepTaxon, a retrieval-augmented multimodal framework that unifies species identification and discovery through interpretable reasoning over retrieved visual evidence. Given a query image, DeepTaxon retrieves the top-$k$ candidate species with $n$ exemplar images each from a retrieval index and performs chain-of-thought comparative reasoning. Critically, we redefine discovery as an explicit, retrieval-based decision problem rather than an implicit parametric memory problem. A sample is novel if and only if the retrieval index lacks sufficient evidence for identification, so each retrieval naturally yields a classification or discovery label without manual annotation, thereby providing automatic supervision for both tasks. We train the framework via supervised fine-tuning on synthetic retrieval-augmented data, followed by reinforcement learning on hard samples, converting high-recall retrieval into high-precision decisions that scale to massive taxonomic vocabularies. Extensive experiments on a large-scale in-distribution benchmark and six out-of-distribution datasets demonstrate consistent improvements in both identification and discovery. Ablation studies further reveal effective test-time scaling with candidate count $k$ and exemplar count $n$, strong zero-shot transfer to unseen domains, and consistent performance across retrieval encoders, establishing an interpretable solution for biodiversity research.
- Abstract(参考訳): 生物の種を数万の視覚的に類似した分類群で同定する一方で、オープンワールド環境で未知の種を発見することは、生物多様性研究の根本的な課題である。
現在の方法では、識別と発見を別の問題として扱い、分類モデルは閉集合を仮定し、発見はしきい値に基づく拒絶に依存する。
ここでは、検索強化マルチモーダルフレームワークであるDeepTaxonを紹介し、検索された視覚的証拠に対する解釈可能な推論を通じて種同定と発見を統一する。
クエリ画像が与えられたら、DeepTaxonは検索インデックスからそれぞれ$n$の例題画像で上位の$k$候補種を検索し、チェーン・オブ・コンプリート比較推論を実行する。
批判的に、我々は発見を暗黙のパラメトリックメモリ問題ではなく、明示的な検索に基づく決定問題として再定義する。
サンプルは、検索インデックスに十分な証拠がない場合に限り、手動のアノテーションなしで分類や発見ラベルを自然に生成し、両方のタスクを自動で監視する。
このフレームワークは、合成検索強化データに基づく教師付き微調整により訓練し、続いてハードサンプルの強化学習を行い、高速検索を大規模な分類語彙にスケールする高精度な決定に変換する。
大規模な分布内ベンチマークと6つの分布外データセットに関する大規模な実験は、識別と発見の両方において一貫した改善を示している。
アブレーション研究により, 候補数$k$, exemplar count$n$, strong zero-shot transfer to unseen domain, and consistent performance across search encoder, established a interpretable Solution for biodiversity research。
関連論文リスト
- Hierarchy-Guided Multimodal Representation Learning for Taxonomic Inference [17.708423679075075]
階層型マルチモーダル学習のためのエンドツーエンドの2つの変種を提案する。
CLiBD-HiRは階層情報正規化(HiR)を導入し、分類学レベルで埋め込み幾何学を形作る。
CLiBD-HiR-Fuseは、画像のみ、DNAのみ、または関節推論をサポートする軽量な融合予測器を訓練する。
論文 参考訳(メタデータ) (2026-03-26T15:47:03Z) - Generative vector search to improve pathology foundation models across multimodal vision-language tasks [0.0]
本稿では,検索性能を向上させるためにクエリ条件付き埋め込みをサンプリングする生成ベクトル探索手法であるLatent Matching(STHLM)を提案する。
STHLMは、科学的文献、臨床ノート、組織像を含む様々なベンチマークにおいて、古典的ベクトル検索よりも重要な改善を示す。
論文 参考訳(メタデータ) (2025-12-22T12:59:23Z) - What You See is (Usually) What You Get: Multimodal Prototype Networks that Abstain from Expensive Modalities [30.3982695067087]
マルチモーダルニューラルネットワークは、このタスクを自動化するために種を特定するために利用が増えている。
まず、ブラックボックスの性質は意思決定プロセスの解釈可能性を妨げる。
第二に、遺伝データの収集は高価であり、しばしば侵襲的な手順を必要とする。
従来のニューラルネットワークの代替として人気があり、解釈可能なプロトタイプネットワーク(ProtoPNet)を、マルチモーダルでコストを意識した設定に拡張することで、これらの問題を解決する。
論文 参考訳(メタデータ) (2025-11-24T22:17:24Z) - Open-Set Recognition of Novel Species in Biodiversity Monitoring [21.00825480154685]
オープンセット認識とアウト・オブ・ディストリビューション検出のためのきめ細かい画像認識ベンチマークデータセットであるOpen-Insectsを紹介する。
我々は、ポストホック法、トレーニング時間正規化、補助データによるトレーニングを含む、様々なオープンセット認識アルゴリズムを評価する。
論文 参考訳(メタデータ) (2025-03-03T16:04:46Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Multi-task Explainable Skin Lesion Classification [54.76511683427566]
少ないラベル付きデータでよく一般化する皮膚病変に対する数発のショットベースアプローチを提案する。
提案手法は,アテンションモジュールや分類ネットワークとして機能するセグメンテーションネットワークの融合を含む。
論文 参考訳(メタデータ) (2023-10-11T05:49:47Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Hierarchy exploitation to detect missing annotations on hierarchical
multi-label classification [0.1749935196721634]
階層型マルチラベル分類データセットにおけるアノテーションの欠落を検出する手法を提案する。
本稿では,各インスタンスの葉から根へのクラスパスに対する集約確率を計算することによって,クラス階層を利用する手法を提案する。
様々な米であるOriza sativa Japonicaの実験では、クラスの階層をこの方法に組み込むことで、予測性能が向上することが示された。
論文 参考訳(メタデータ) (2022-07-13T14:32:50Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。