論文の概要: VR-RAG: Open-vocabulary Species Recognition with RAG-Assisted Large Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2505.05635v1
- Date: Thu, 08 May 2025 20:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.078465
- Title: VR-RAG: Open-vocabulary Species Recognition with RAG-Assisted Large Multi-Modal Models
- Title(参考訳): 大規模多モードモデルを用いたVR-RAGの開語彙認識
- Authors: Faizan Farooq Khan, Jun Chen, Youssef Mohamed, Chun-Mei Feng, Mohamed Elhoseiny,
- Abstract要約: オープン・ボキャブラリ・バードの種認識に重点を置いており、その目的は、その記述に基づいて種を分類することである。
CUB-200-2011のような伝統的なベンチマークは、クローズド語彙パラダイムで評価されている。
設定条件下での評価における現在のシステムの性能は、オープン語彙のドロップと密接に一致していることが、大きなマージンで示されている。
- 参考スコア(独自算出の注目度): 33.346206174676794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary recognition remains a challenging problem in computer vision, as it requires identifying objects from an unbounded set of categories. This is particularly relevant in nature, where new species are discovered every year. In this work, we focus on open-vocabulary bird species recognition, where the goal is to classify species based on their descriptions without being constrained to a predefined set of taxonomic categories. Traditional benchmarks like CUB-200-2011 and Birdsnap have been evaluated in a closed-vocabulary paradigm, limiting their applicability to real-world scenarios where novel species continually emerge. We show that the performance of current systems when evaluated under settings closely aligned with open-vocabulary drops by a huge margin. To address this gap, we propose a scalable framework integrating structured textual knowledge from Wikipedia articles of 11,202 bird species distilled via GPT-4o into concise, discriminative summaries. We propose Visual Re-ranking Retrieval-Augmented Generation(VR-RAG), a novel, retrieval-augmented generation framework that uses visual similarities to rerank the top m candidates retrieved by a set of multimodal vision language encoders. This allows for the recognition of unseen taxa. Extensive experiments across five established classification benchmarks show that our approach is highly effective. By integrating VR-RAG, we improve the average performance of state-of-the-art Large Multi-Modal Model QWEN2.5-VL by 15.4% across five benchmarks. Our approach outperforms conventional VLM-based approaches, which struggle with unseen species. By bridging the gap between encyclopedic knowledge and visual recognition, our work advances open-vocabulary recognition, offering a flexible, scalable solution for biodiversity monitoring and ecological research.
- Abstract(参考訳): オープン語彙認識は、非有界なカテゴリの集合からオブジェクトを識別する必要があるため、コンピュータビジョンにおいて依然として難しい問題である。
これは特に自然に関係しており、毎年新種が発見されている。
本研究は,オープンボキャブラリの鳥類種認識に焦点をあて,その目的は,事前に定義された分類カテゴリーに縛られることなく,その記述に基づいて種を分類することである。
CUB-200-2011やBirdsnapのような伝統的なベンチマークはクローズドボキャブラリーパラダイムで評価され、新しい種が絶えず出現する現実世界のシナリオに適用性を制限する。
設定条件下での評価における現在のシステムの性能は、オープン語彙のドロップと密接に一致していることが、大きなマージンで示されている。
このギャップに対処するために,GPT-4oを用いて蒸留した11,202羽の鳥類のウィキペディア記事から,構造化されたテキスト知識を簡潔かつ識別的な要約に統合するスケーラブルなフレームワークを提案する。
視覚的類似性を利用して、マルチモーダル視覚言語エンコーダによって検索されたトップm候補をリランクする、新しい検索拡張生成フレームワークであるVisual Re-level Retrieval-Augmented Generation(VR-RAG)を提案する。
これにより、目に見えない分類の認識が可能となる。
5つの確立された分類ベンチマークの大規模な実験は、我々のアプローチが極めて効果的であることを示している。
VR-RAGを統合することで、5つのベンチマークで最先端のLarge Multi-Modal Model QWEN2.5-VLの平均性能を15.4%改善する。
我々のアプローチは、目に見えない種に苦しむ従来のVLMベースのアプローチよりも優れています。
百科事典の知識と視覚認識のギャップを埋めることで、我々の研究はオープン語彙認識を推進し、生物多様性監視と生態研究のための柔軟なスケーラブルなソリューションを提供する。
関連論文リスト
- Multi-scale Activation, Refinement, and Aggregation: Exploring Diverse Cues for Fine-Grained Bird Recognition [35.99227153038734]
Fine-Grained Bird Recognition (FGBR) が注目されている。
近年の研究では、平易なViTモデルの受容領域が限られており、表現豊かさを妨げていることが示されている。
MDCM(Multi-scale Diverse Cues Modeling)と呼ばれる新しいFGBRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T13:47:24Z) - Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Multi-View Active Fine-Grained Recognition [29.980409725777292]
細粒度視覚分類(FGVC)は数十年間開発されている。
識別情報は、目に見えない地域だけでなく、他の目に見えない視点にも隠されている。
アクティブなビュー選択による効率的な認識を実現するための政策段階に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-02T17:12:14Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。