論文の概要: Neural Catalog: Scaling Species Recognition with Catalog of Life-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.05635v2
- Date: Mon, 29 Sep 2025 22:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.728859
- Title: Neural Catalog: Scaling Species Recognition with Catalog of Life-Augmented Generation
- Title(参考訳): ニューラルカタログ:ライフアップジェネレーションのカタログによる種認識のスケーリング
- Authors: Faizan Farooq Khan, Jun Chen, Youssef Mohamed, Chun-Mei Feng, Mohamed Elhoseiny,
- Abstract要約: 現状のシステムでは, 何千もの候補種に対して, リアルなオープン語彙設定で30%以上の性能低下を経験している。
本稿では,構造化百科事典の知識と認識を結びつける新しいフレームワークであるVisual Re-level Retrieval-Augmented Generation (VR-RAG)を提案する。
- 参考スコア(独自算出の注目度): 43.904507177328355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary species recognition is a major challenge in computer vision, particularly in ornithology, where new taxa are continually discovered. While benchmarks like CUB-200-2011 and Birdsnap have advanced fine-grained recognition under closed vocabularies, they fall short of real-world conditions. We show that current systems suffer a performance drop of over 30\% in realistic open-vocabulary settings with thousands of candidate species, largely due to an increased number of visually similar and semantically ambiguous distractors. To address this, we propose Visual Re-ranking Retrieval-Augmented Generation (VR-RAG), a novel framework that links structured encyclopedic knowledge with recognition. We distill Wikipedia articles for 11,202 bird species into concise, discriminative summaries and retrieve candidates from these summaries. Unlike prior text-only approaches, VR-RAG incorporates visual information during retrieval, ensuring final predictions are both textually relevant and visually consistent with the query image. Extensive experiments across five bird classification benchmarks and two additional domains show that VR-RAG improves the average performance of the state-of-the-art Qwen2.5-VL model by 18.0%.
- Abstract(参考訳): オープン語彙の種認識はコンピュータビジョン、特にオルニトロジーにおいて大きな課題であり、新しい分類が継続的に発見されている。
CUB-200-2011やBirdsnapのようなベンチマークは、クローズドボキャブラリの下では微粒化認識が進んでいるが、現実の条件には達していない。
現状のシステムでは, 視覚的に類似し, 意味的に曖昧な乱れが相次いだため, 数千種の候補種に対して, リアルなオープン語彙設定では30倍以上の性能低下がみられた。
そこで我々は,構造化百科事典の知識と認識を結びつける新しいフレームワークであるVisual Re- rank Retrieval-Augmented Generation (VR-RAG)を提案する。
我々は,11,202種の鳥類について,ウィキペディアの記事を簡潔かつ識別可能な要約に蒸留し,これらの要約から候補を検索する。
従来のテキストのみのアプローチとは異なり、VR-RAGは検索中に視覚情報を取り入れ、最終的な予測がテキスト的に関連があり、クエリイメージと視覚的に一致していることを保証する。
5つの鳥分類ベンチマークと2つの追加領域にわたる大規模な実験により、VR-RAGは最先端のQwen2.5-VLモデルの平均性能を18.0%向上させることが示された。
関連論文リスト
- Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - Multi-scale Activation, Refinement, and Aggregation: Exploring Diverse Cues for Fine-Grained Bird Recognition [35.99227153038734]
Fine-Grained Bird Recognition (FGBR) が注目されている。
近年の研究では、平易なViTモデルの受容領域が限られており、表現豊かさを妨げていることが示されている。
MDCM(Multi-scale Diverse Cues Modeling)と呼ばれる新しいFGBRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T13:47:24Z) - Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Multi-View Active Fine-Grained Recognition [29.980409725777292]
細粒度視覚分類(FGVC)は数十年間開発されている。
識別情報は、目に見えない地域だけでなく、他の目に見えない視点にも隠されている。
アクティブなビュー選択による効率的な認識を実現するための政策段階に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-02T17:12:14Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。