論文の概要: Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2405.17859v1
- Date: Tue, 28 May 2024 06:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 20:07:07.515825
- Title: Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation
- Title(参考訳): 新規検出・分割のための事前学習型視覚モデルの適用
- Authors: Yangxiao Lu, Jishnu Jaykumar P, Yunhui Guo, Nicholas Ruozzi, Yu Xiang,
- Abstract要約: 本稿では、オブジェクトの提案生成、インスタンステンプレートと提案領域の埋め込み生成、インスタンスラベル割り当ての埋め込みマッチングを含む統合フレームワーク(NIDS-Net)を提案する。
我々のフレームワークは現在の最先端の手法を超え、4つの検出データセットの平均精度(AP)において22.3、46.2、10.3、24.0の顕著な改善を示している。
- 参考スコア(独自算出の注目度): 15.414518995812754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel Instance Detection and Segmentation (NIDS) aims at detecting and segmenting novel object instances given a few examples of each instance. We propose a unified framework (NIDS-Net) comprising object proposal generation, embedding creation for both instance templates and proposal regions, and embedding matching for instance label assignment. Leveraging recent advancements in large vision methods, we utilize the Grounding DINO and Segment Anything Model (SAM) to obtain object proposals with accurate bounding boxes and masks. Central to our approach is the generation of high-quality instance embeddings. We utilize foreground feature averages of patch embeddings from the DINOv2 ViT backbone, followed by refinement through a weight adapter mechanism that we introduce. We show experimentally that our weight adapter can adjust the embeddings locally within their feature space and effectively limit overfitting. This methodology enables a straightforward matching strategy, resulting in significant performance gains. Our framework surpasses current state-of-the-art methods, demonstrating notable improvements of 22.3, 46.2, 10.3, and 24.0 in average precision (AP) across four detection datasets. In instance segmentation tasks on seven core datasets of the BOP challenge, our method outperforms the top RGB methods by 3.6 AP and remains competitive with the best RGB-D method. Code is available at: https://github.com/YoungSean/NIDS-Net
- Abstract(参考訳): New Instance Detection and Segmentation (NIDS)は、各インスタンスのいくつかの例から、新しいオブジェクトインスタンスを検出し、セグメンテーションすることを目的としている。
本稿では、オブジェクトの提案生成、インスタンステンプレートと提案領域の埋め込み生成、インスタンスラベル割り当ての埋め込みマッチングを含む統合フレームワーク(NIDS-Net)を提案する。
近年の大規模ビジョン手法の進歩を生かして,正確なバウンディングボックスとマスクを用いたオブジェクト提案を得るために,grounding DINO と Segment Anything Model (SAM) を利用する。
私たちのアプローチの中心は、高品質なインスタンス埋め込みの生成です。
我々は、DINOv2 ViTバックボーンからのパッチ埋め込みの事前特徴平均を利用し、それに続いて、私たちが導入する重み付けアダプター機構による改善を行った。
重み付けアダプタは,特徴空間内の埋め込みを局所的に調整し,オーバーフィッティングを効果的に制限できることを実験的に示す。
この手法は直接的なマッチング戦略を可能にし、結果として大きなパフォーマンス向上をもたらす。
我々のフレームワークは現在の最先端の手法を超え、4つの検出データセットの平均精度(AP)において22.3、46.2、10.3、24.0の顕著な改善を示している。
例えば、BOPチャレンジの7つのコアデータセットのセグメンテーションタスクでは、我々の手法は3.6 APで上位RGBメソッドより優れており、最高のRGB-Dメソッドと競合し続けている。
コードは、https://github.com/YoungSean/NIDS-Netで入手できる。
関連論文リスト
- UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Prototypical VoteNet for Few-Shot 3D Point Cloud Object Detection [37.48935478836176]
VoteNetは、数発の3Dポイントクラウドオブジェクト検出アプローチである。
PVM(Prototypeal Vote Module)とPHM(Prototypeal Head Module)の2つの新しいモジュールが組み込まれている。
論文 参考訳(メタデータ) (2022-10-11T16:25:38Z) - Collaborative Propagation on Multiple Instance Graphs for 3D Instance
Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。
これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。
具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T02:14:39Z) - PointInst3D: Segmenting 3D Instances by Points [136.7261709896713]
本稿では,ポイント単位の予測方式で機能する,完全畳み込み型3Dポイントクラウドインスタンスセグメンテーション手法を提案する。
その成功の鍵は、各サンプルポイントに適切なターゲットを割り当てることにある。
提案手法はScanNetとS3DISのベンチマークで有望な結果が得られる。
論文 参考訳(メタデータ) (2022-04-25T02:41:46Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。