論文の概要: VL-SAM-V2: Open-World Object Detection with General and Specific Query Fusion
- arxiv url: http://arxiv.org/abs/2505.18986v1
- Date: Sun, 25 May 2025 05:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.812192
- Title: VL-SAM-V2: Open-World Object Detection with General and Specific Query Fusion
- Title(参考訳): VL-SAM-V2:一般および特定クエリフュージョンを用いたオープンワールドオブジェクト検出
- Authors: Zhiwei Lin, Yongtao Wang,
- Abstract要約: 本稿では,未確認なオブジェクトを検出できるオープンワールドなオブジェクト検出フレームワークについて述べる。
オープンセットモデルからのクエリを調整することにより、VL-SAM-V2をオープンセットモードまたはオープンエンドモードで評価できる。
LVIS実験の結果, 従来のオープンセット法, オープンエンド法, 特にレアオブジェクト法を超越した手法が得られた。
- 参考スコア(独自算出の注目度): 7.719330752075467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current perception models have achieved remarkable success by leveraging large-scale labeled datasets, but still face challenges in open-world environments with novel objects. To address this limitation, researchers introduce open-set perception models to detect or segment arbitrary test-time user-input categories. However, open-set models rely on human involvement to provide predefined object categories as input during inference. More recently, researchers have framed a more realistic and challenging task known as open-ended perception that aims to discover unseen objects without requiring any category-level input from humans at inference time. Nevertheless, open-ended models suffer from low performance compared to open-set models. In this paper, we present VL-SAM-V2, an open-world object detection framework that is capable of discovering unseen objects while achieving favorable performance. To achieve this, we combine queries from open-set and open-ended models and propose a general and specific query fusion module to allow different queries to interact. By adjusting queries from open-set models, we enable VL-SAM-V2 to be evaluated in the open-set or open-ended mode. In addition, to learn more diverse queries, we introduce ranked learnable queries to match queries with proposals from open-ended models by sorting. Moreover, we design a denoising point training strategy to facilitate the training process. Experimental results on LVIS show that our method surpasses the previous open-set and open-ended methods, especially on rare objects.
- Abstract(参考訳): 現在の知覚モデルは、大規模ラベル付きデータセットを活用することで、目覚ましい成功を収めてきたが、それでも、新しいオブジェクトを持つオープンワールド環境では課題に直面している。
この制限に対処するため、研究者は任意のテストタイムユーザ・インプットカテゴリを検知またはセグメントするオープンセットの知覚モデルを導入した。
しかし、オープンセットモデルは、推論中に入力として事前に定義されたオブジェクトカテゴリを提供するために、人間の関与に依存している。
最近では、人間の推論時にカテゴリレベルの入力を必要とせずに、目に見えない物体を発見することを目的とした、オープン・エンド・インセプション(open-ended perception)として知られる、より現実的で挑戦的なタスクが研究されている。
それでも、オープンエンドモデルは、オープンセットモデルに比べて低パフォーマンスに悩まされている。
本稿では,VL-SAM-V2について述べる。VL-SAM-V2は,未知の物体を検出できるオープンワールドオブジェクト検出フレームワークである。
これを実現するために、オープンセットとオープンエンドモデルのクエリを組み合わせて、異なるクエリが対話できるように、汎用的で特定のクエリ融合モジュールを提案する。
オープンセットモデルからのクエリを調整することにより、VL-SAM-V2をオープンセットモードまたはオープンエンドモードで評価できる。
さらに,より多様なクエリを学習するために,クェリとオープンエンドモデルの提案とをソートして一致させるために,ランク付け可能なクェリを導入する。
さらに,本研究は,学習プロセスの容易化を目的として,ディノナイジングポイントトレーニング戦略を設計する。
LVIS実験の結果, 従来のオープンセット法, オープンエンド法, 特にレアオブジェクト法を超越した手法が得られた。
関連論文リスト
- Solving Instance Detection from an Open-World Perspective [14.438053802336947]
インスタンス検出(InsDet)は、与えられた視覚的参照に基づいて、新しいシーンイメージ内の特定のオブジェクトインスタンスをローカライズすることを目的としている。
そのオープンワールドの性質は、ロボット工学からAR/VRまで幅広い応用をサポートしているが、同時に大きな課題も生んでいる。
論文 参考訳(メタデータ) (2025-03-01T05:56:58Z) - Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts [14.631774737903015]
既存の知覚モデルは大量のラベル付きデータから学習することで大きな成功を収めるが、それでもオープンワールドのシナリオに苦戦している。
我々は、オブジェクトカテゴリを入力として含まない未確認オブジェクトを検出する、オープンな対象検出(textiti.e.)を提案する。
提案手法は,オブジェクト検出タスクにおける従来のオープンエンドメソッドを超越し,追加のインスタンスセグメンテーションマスクを提供できることを示す。
論文 参考訳(メタデータ) (2024-10-08T12:15:08Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Open-Set Recognition in the Age of Vision-Language Models [9.306738687897889]
オープン語彙認識のための視覚言語モデル(VLM)が,インターネット規模のデータセットで訓練されているため,本質的にオープンセットモデルであるかどうかを検討する。
有限クエリセットを介してクローズドセットの仮定を導入し、オープンセット条件に対して脆弱になる。
より多くのクラスを含むクエリセットのサイズを中立的に増やすことは、この問題を軽減するのではなく、タスクパフォーマンスの低下とオープンセットのパフォーマンスの低下を引き起こすことを示す。
論文 参考訳(メタデータ) (2024-03-25T08:14:22Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - OpenAUC: Towards AUC-Oriented Open-Set Recognition [151.5072746015253]
従来の機械学習は、トレーニングとテストセットが同じラベル空間を共有するという密接な前提に従っている。
Open-Set Recognition (OSR) は、クローズセットサンプルとオープンセットサンプルの両方で正確な予測を行うことを目的としている。
これらの問題を解決するために,OpenAUCという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2022-10-22T08:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。