論文の概要: Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts
- arxiv url: http://arxiv.org/abs/2410.05963v1
- Date: Tue, 8 Oct 2024 12:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:00:27.513068
- Title: Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts
- Title(参考訳): プロンプトとしての注意による無訓練オープンエンド物体検出とセグメンテーション
- Authors: Zhiwei Lin, Yongtao Wang, Zhi Tang,
- Abstract要約: 既存の知覚モデルは大量のラベル付きデータから学習することで大きな成功を収めるが、それでもオープンワールドのシナリオに苦戦している。
我々は、オブジェクトカテゴリを入力として含まない未確認オブジェクトを検出する、オープンな対象検出(textiti.e.)を提案する。
提案手法は,オブジェクト検出タスクにおける従来のオープンエンドメソッドを超越し,追加のインスタンスセグメンテーションマスクを提供できることを示す。
- 参考スコア(独自算出の注目度): 14.631774737903015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing perception models achieve great success by learning from large amounts of labeled data, but they still struggle with open-world scenarios. To alleviate this issue, researchers introduce open-set perception tasks to detect or segment unseen objects in the training set. However, these models require predefined object categories as inputs during inference, which are not available in real-world scenarios. Recently, researchers pose a new and more practical problem, \textit{i.e.}, open-ended object detection, which discovers unseen objects without any object categories as inputs. In this paper, we present VL-SAM, a training-free framework that combines the generalized object recognition model (\textit{i.e.,} Vision-Language Model) with the generalized object localization model (\textit{i.e.,} Segment-Anything Model), to address the open-ended object detection and segmentation task. Without additional training, we connect these two generalized models with attention maps as the prompts. Specifically, we design an attention map generation module by employing head aggregation and a regularized attention flow to aggregate and propagate attention maps across all heads and layers in VLM, yielding high-quality attention maps. Then, we iteratively sample positive and negative points from the attention maps with a prompt generation module and send the sampled points to SAM to segment corresponding objects. Experimental results on the long-tail instance segmentation dataset (LVIS) show that our method surpasses the previous open-ended method on the object detection task and can provide additional instance segmentation masks. Besides, VL-SAM achieves favorable performance on the corner case object detection dataset (CODA), demonstrating the effectiveness of VL-SAM in real-world applications. Moreover, VL-SAM exhibits good model generalization that can incorporate various VLMs and SAMs.
- Abstract(参考訳): 既存の知覚モデルは大量のラベル付きデータから学習することで大きな成功を収めるが、それでもオープンワールドのシナリオに苦戦している。
この問題を軽減するために、研究者はオープンセットの知覚タスクを導入し、トレーニングセット内の未確認物体を検出したり、セグメンテーションしたりする。
しかし、これらのモデルは、実世界のシナリオでは利用できない、推論中に入力として事前定義されたオブジェクトカテゴリを必要とする。
近年、研究者は、オブジェクトのカテゴリを入力として含まない未知のオブジェクトを発見できる、新しいより実践的な問題である「textit{i.e.}」を提起している。
本稿では、一般化オブジェクト認識モデル(\textit{i.e.,} Vision-Language Model)と一般化オブジェクトローカライゼーションモデル(\textit{i.e.,} Segment-Anything Model)を組み合わせた学習自由フレームワークであるVL-SAMについて述べる。
追加のトレーニングがなければ、これらの2つの一般化されたモデルをアテンションマップをプロンプトとして接続する。
具体的には,頭部アグリゲーションと正規化された注意流を用いて,VLMの全頭部および層にアグリゲーションマップを配置し,高品質なアグリゲーションマップを生成するアグリゲーションマップ生成モジュールを設計する。
次に,アテンションマップからのポジティと負の点をプロンプト生成モジュールで繰り返しサンプリングし,サンプルされた点をSAMに送信して対応するオブジェクトを分割する。
LVIS(Long-tail instance segmentation dataset)の実験結果から,本手法はオブジェクト検出タスクにおける従来のオープンエンド手法を超越し,追加のインスタンスセグメンテーションマスクを提供することができることがわかった。
さらに、VL-SAMはコーナーケースオブジェクト検出データセット(CODA)上で良好な性能を発揮し、実世界のアプリケーションにおけるVL-SAMの有効性を示す。
さらに、VL-SAMは、様々なVLMとSAMを組み込むことができる優れたモデル一般化を示す。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SOS: Segment Object System for Open-World Instance Segmentation With Object Priors [2.856781525749652]
画像中の任意の未知のオブジェクトを、訓練中に限定された注釈付きオブジェクトの集合から一般化することで分割する手法を提案する。
提案手法はCOCO, LVIS, ADE20kデータセットに対して強力な一般化能力を示し, 最先端技術と比較して81.6%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-09-22T23:35:31Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Unsupervised Discovery of the Long-Tail in Instance Segmentation Using
Hierarchical Self-Supervision [3.841232411073827]
本稿では,インスタンスセグメンテーションにおける長尾カテゴリの非監視的発見を行う手法を提案する。
我々のモデルは、一般的なカテゴリよりも新しくよりきめ細かなオブジェクトを発見できる。
本モデルでは,LVISにおいて,教師付きおよび部分教師付き手法と比較して,競争力のある定量的結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-02T22:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。