論文の概要: VL-SAM-v3: Memory-Guided Visual Priors for Open-World Object Detection
- arxiv url: http://arxiv.org/abs/2605.03456v1
- Date: Tue, 05 May 2026 07:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.822402
- Title: VL-SAM-v3: Memory-Guided Visual Priors for Open-World Object Detection
- Title(参考訳): VL-SAM-v3: オープンワールドオブジェクト検出のためのメモリガイド型ビジュアルプライオリティ
- Authors: Chih-Chung Liu, Zhiwei Lin, Yongtao Wang,
- Abstract要約: 本研究では,検索対象外界メモリを用いたオープンワールド検出を実現する統合フレームワークを提案する。
VL-SAM-v3は、オープンボキャブラリとオープンエンドの両方で検出性能を一貫して改善する。
より強力な開語彙検出器(SAM3)による実験は、提案された検索・精製機構の一般性を検証する。
- 参考スコア(独自算出の注目度): 16.02875655103583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world object detection aims to localize and recognize objects beyond a fixed closed-set label space. It is commonly divided into two categories, i.e., open-vocabulary detection, which assumes a predefined category list at test time, and open-ended detection, which requires generating candidate categories during the inference. Existing methods rely primarily on coarse textual semantics and parametric knowledge, which often provide insufficient visual evidence for fine-grained appearance variation, rare categories, and cluttered scenes. In this paper, we propose VL-SAM-v3, a unified framework that augments open-world detection with retrieval-grounded external visual memory. Specifically, once candidate categories are available, VL-SAM-v3 retrieves relevant visual prototypes from a non-parametric memory bank and transforms them into two complementary visual priors, i.e., sparse priors for instance-level spatial anchoring and dense priors for class-aware local context. These priors are integrated with the original detection prompts via Memory-Guided Prompt Refinement, enabling a shared retrieval-and-refinement mechanism that supports open-vocabulary and open-ended inference.Extensive zero-shot experiments on LVIS show that VL-SAM-v3 consistently improves detection performance under both open-vocabulary and open-ended inference, with particularly strong gains on rare categories.Moreover, experiments with a stronger open-vocabulary detector (i.e., SAM3) validate the generality of the proposed retrieval-and-refinement mechanism.
- Abstract(参考訳): オープンワールドオブジェクト検出は、固定されたクローズドセットラベル空間を超えてオブジェクトをローカライズし、認識することを目的としている。
一般には、テスト時に事前に定義されたカテゴリリストを仮定するオープン語彙検出(open-vocabulary detection)と、推論中に候補カテゴリを生成するオープンエンド検出(open-ended detection)の2つのカテゴリに分けられる。
既存の手法は主に粗いテキストのセマンティクスとパラメトリックの知識に依存しており、しばしば細かい外観の変化、希少なカテゴリー、散らかったシーンの視覚的証拠が不足している。
本稿では,検索対象外界メモリを用いたオープンワールド検出を実現する統合フレームワークであるVL-SAM-v3を提案する。
具体的には、候補カテゴリが利用可能になると、VL-SAM-v3は、非パラメトリックメモリバンクから関連する視覚プロトタイプを取得し、それらを2つの相補的な視覚的先行、すなわち、インスタンスレベルの空間的アンカーとクラス対応ローカルコンテキストの密集した事前に変換する。
LVISの広汎なゼロショット実験により、VL-SAM-v3は、オープンボキャブラリとオープンド推論の両方において、検出性能を一貫して改善し、特にレアなカテゴリにおいて、より強力なオープンボキャブラリ検出器(SAM3)による実験は、提案された検索/リファインメント機構の汎用性を検証している。
関連論文リスト
- Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images [52.7196029918473]
リモートセンシングにおけるオープンボキャブラリオブジェクト検出は、テキストのみに依存してターゲットカテゴリを指定する。
実際には、タスクやアプリケーション固有のカテゴリセマンティクスによって、リモートセンシングのシナリオでは、この仮定は分解されることが多い。
テキストのみのプロンプト以外のカテゴリ仕様を再構成するマルチモーダルなオープン語彙検出フレームワークRS-MPODを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:03:01Z) - WeDetect: Fast Open-Vocabulary Object Detection as Retrieval [74.39703419628829]
Open-vocabularyオブジェクト検出は、テキストプロンプトを通じて任意のクラスを検出することを目的としている。
クロスモーダル融合層(ノンフュージョン)を持たない手法は、認識を検索問題として扱うことにより、より高速な推論を提供する。
WeDetectという名前のモデルファミリを開発し、推論効率の高い15ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-13T12:40:28Z) - VL-SAM-V2: Open-World Object Detection with General and Specific Query Fusion [7.719330752075467]
本稿では,未確認なオブジェクトを検出できるオープンワールドなオブジェクト検出フレームワークについて述べる。
オープンセットモデルからのクエリを調整することにより、VL-SAM-V2をオープンセットモードまたはオープンエンドモードで評価できる。
LVIS実験の結果, 従来のオープンセット法, オープンエンド法, 特にレアオブジェクト法を超越した手法が得られた。
論文 参考訳(メタデータ) (2025-05-25T05:44:02Z) - Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection [68.26282316080558]
現在のオープンワールド検出器は、限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。
本稿では,多語彙オブジェクト検出のためのプロトタイプ分類器Provaを紹介する。
論文 参考訳(メタデータ) (2024-12-23T18:57:43Z) - LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。