論文の概要: NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation
- arxiv url: http://arxiv.org/abs/2507.01463v1
- Date: Wed, 02 Jul 2025 08:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.097661
- Title: NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation
- Title(参考訳): NOCTIS: 新しいオブジェクトサイクル閾値ベースのインスタンスセグメンテーション
- Authors: Max Gandyra, Alessandro Santonicola, Michael Beetz,
- Abstract要約: Novel Object Cyclic Threshold based Instance (NOCTIS) は、新しいオブジェクトに使えるようなモデル全般を設計するためのフレームワークである。
我々は,NOCTISが「未知オブジェクトのモデルベース2Dセグメンテーション」タスクにおいて,BOP 2023チャレンジの7つのコアデータセットにおいて,最高のRGBおよびRGB-D手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 47.32364120562497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation of novel objects instances in RGB images, given some example images for each object, is a well known problem in computer vision. Designing a model general enough to be employed, for all kinds of novel objects, without (re-) training, has proven to be a difficult task. To handle this, we propose a simple, yet powerful, framework, called: Novel Object Cyclic Threshold based Instance Segmentation (NOCTIS). This work stems from and improves upon previous ones like CNOS, SAM-6D and NIDS-Net; thus, it also leverages on recent vision foundation models, namely: Grounded-SAM 2 and DINOv2. It utilises Grounded-SAM 2 to obtain object proposals with precise bounding boxes and their corresponding segmentation masks; while DINOv2's zero-shot capabilities are employed to generate the image embeddings. The quality of those masks, together with their embeddings, is of vital importance to our approach; as the proposal-object matching is realized by determining an object matching score based on the similarity of the class embeddings and the average maximum similarity of the patch embeddings. Differently to SAM-6D, calculating the latter involves a prior patch filtering based on the distance between each patch and its corresponding cyclic/roundtrip patch in the image grid. Furthermore, the average confidence of the proposals' bounding box and mask is used as an additional weighting factor for the object matching score. We empirically show that NOCTIS, without further training/fine tuning, outperforms the best RGB and RGB-D methods on the seven core datasets of the BOP 2023 challenge for the "Model-based 2D segmentation of unseen objects" task.
- Abstract(参考訳): RGB画像における新しいオブジェクトのインスタンス分割は、各オブジェクトのサンプル画像が与えられた場合、コンピュータビジョンにおいてよく知られた問題である。
あらゆる種類の新しいオブジェクトに対して、(再)トレーニングなしで、採用可能なモデル全般を設計することは、難しい課題であることが証明されている。
これを処理するために、我々は、以下と呼ばれるシンプルで強力で強力なフレームワークを提案します。
この作業は、CNOS、SAM-6D、NIDS-Netといった以前のものから始まり、改善されている。
Grounded-SAM 2を利用して、正確なバウンディングボックスとそれに対応するセグメンテーションマスクを持つオブジェクトの提案を得るが、DINOv2のゼロショット機能は画像埋め込みを生成するために使用される。
これらのマスクの質は組込みとともに,我々のアプローチにとって極めて重要であり,クラス埋め込みの類似性とパッチ埋め込みの平均的最大類似度に基づいてオブジェクトマッチングスコアを決定することによって,提案対象マッチングを実現する。
SAM-6Dとは違って、画像グリッド内の各パッチと対応するサイクリック/ラウンドトリップのパッチ間の距離に基づいて、後者の計算を行う。
さらに、オブジェクトマッチングスコアに付加的な重み付け因子として提案手法のバウンディングボックスとマスクの平均信頼度が用いられる。
実験により、NOCTISは、さらなるトレーニング/微調整なしで、BOP 2023チャレンジの7つのコアデータセットにおいて、最高のRGBおよびRGB-Dメソッドよりも「見えないオブジェクトのモデルベース2Dセグメンテーション」に優れることを示した。
関連論文リスト
- CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-15T14:30:26Z) - Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation [15.414518995812754]
新たなインスタンス検出と計算(NIDS)は、新しいオブジェクトインスタンスを検出し、セグメンテーションすることを目的としている。
我々は、オブジェクトの提案生成、インスタンステンプレートと提案領域の両方の埋め込み生成、インスタンスラベル割り当ての埋め込みマッチングを含む統一的でシンプルで効果的なフレームワーク(NIDS-Net)を提案する。
論文 参考訳(メタデータ) (2024-05-28T06:16:57Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Single-stage Keypoint-based Category-level Object Pose Estimation from
an RGB Image [27.234658117816103]
カテゴリレベルのオブジェクトポーズ推定のための,単一段階のキーポイントに基づくアプローチを提案する。
提案ネットワークは2次元オブジェクト検出を行い、2次元キーポイントを検出し、6-DoFのポーズを推定し、相対的に有界な立方体次元を回帰する。
我々は,3次元IoU測定値における最先端の手法よりも優れた,挑戦的なObjectronベンチマークに関する広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-09-13T17:55:00Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。