論文の概要: Object-level Correlation for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2509.07917v1
- Date: Tue, 09 Sep 2025 16:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.40579
- Title: Object-level Correlation for Few-Shot Segmentation
- Title(参考訳): Few-Shotセグメンテーションのためのオブジェクトレベルの相関
- Authors: Chunlin Wen, Yu Zhang, Jie Fan, Hongyuan Zhu, Xiu-Shen Wei, Yijun Wang, Zhiqiang Kou, Shuzhou Sun,
- Abstract要約: Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートサンプルが与えられたクエリイメージにおいて、新しいカテゴリのオブジェクトをセグメントすることを目的としている。
本稿では,対象オブジェクトと問い合わせ対象オブジェクトのオブジェクトレベルの相関性を確立することによって,オブジェクトレベルの相関ネットワーク(OCNet)を提案する。
生成されたオブジェクトレベルの相関は、クエリターゲット特徴をマイニングし、最終的な予測のためにハードピクセルノイズを抑制することができる。
- 参考スコア(独自算出の注目度): 37.247888341920984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot semantic segmentation (FSS) aims to segment objects of novel categories in the query images given only a few annotated support samples. Existing methods primarily build the image-level correlation between the support target object and the entire query image. However, this correlation contains the hard pixel noise, \textit{i.e.}, irrelevant background objects, that is intractable to trace and suppress, leading to the overfitting of the background. To address the limitation of this correlation, we imitate the biological vision process to identify novel objects in the object-level information. Target identification in the general objects is more valid than in the entire image, especially in the low-data regime. Inspired by this, we design an Object-level Correlation Network (OCNet) by establishing the object-level correlation between the support target object and query general objects, which is mainly composed of the General Object Mining Module (GOMM) and Correlation Construction Module (CCM). Specifically, GOMM constructs the query general object feature by learning saliency and high-level similarity cues, where the general objects include the irrelevant background objects and the target foreground object. Then, CCM establishes the object-level correlation by allocating the target prototypes to match the general object feature. The generated object-level correlation can mine the query target feature and suppress the hard pixel noise for the final prediction. Extensive experiments on PASCAL-${5}^{i}$ and COCO-${20}^{i}$ show that our model achieves the state-of-the-art performance.
- Abstract(参考訳): Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートサンプルが与えられたクエリイメージにおいて、新しいカテゴリのオブジェクトをセグメントすることを目的としている。
既存の手法は主に、サポート対象オブジェクトとクエリーイメージ全体の画像レベルの相関を構築する。
しかし、この相関にはハードピクセルノイズ, \textit{i.e.}、無関係な背景オブジェクトが含まれており、追跡と抑制が困難であり、背景の過度な適合に繋がる。
この相関の限界に対処するため,我々は生物の視覚過程を模倣し,対象レベルの情報に新しい物体を識別する。
汎用オブジェクトにおけるターゲット識別は、画像全体、特に低データ状態においてより有効である。
そこで我々は,汎用オブジェクトマイニングモジュール (GOMM) と相関構築モジュール (CCM) を主成分とする,サポート対象オブジェクトと問い合わせ対象オブジェクトとのオブジェクトレベルの相関性を確立することにより,対象レベルの相関ネットワーク (OCNet) を設計する。
具体的には、GOMMは、無関係な背景オブジェクトと対象のフォアグラウンドオブジェクトを含む高レベルの類似性キューを学習することで、クエリ汎用オブジェクト機能を構築する。
そして、CCMは、対象のプロトタイプを一般的なオブジェクトの特徴に合わせるように配置することで、オブジェクトレベルの相関を確立する。
生成されたオブジェクトレベルの相関は、クエリターゲット特徴をマイニングし、最終的な予測のためにハードピクセルノイズを抑制することができる。
PASCAL-${5}^{i}$とCOCO-${20}^{i}$の大規模な実験は、我々のモデルが最先端の性能を達成することを示す。
関連論文リスト
- Object-Centric Cropping for Visual Few-Shot Classification [5.199807441687141]
Few-Shotイメージ分類の領域では、クラス毎に1つの例で操作することで、複数のオブジェクトや複雑な背景から生じる画像の曖昧さがパフォーマンスを著しく低下させる可能性がある。
本研究は,画像中の物体の局所的な位置決めに関する追加情報を組み込むことによって,確立されたベンチマークの分類が著しく向上することを示す。
論文 参考訳(メタデータ) (2025-07-31T23:44:06Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Referring Camouflaged Object Detection [88.63744004901655]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。
提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文 参考訳(メタデータ) (2023-05-12T08:10:14Z) - LocPoseNet: Robust Location Prior for Unseen Object Pose Estimation [69.70498875887611]
LocPoseNetは、見えないオブジェクトに先立って、ロバストにロケーションを学習することができる。
提案手法は,LINEMOD と GenMOP において,既存の作業よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-29T15:21:34Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。