論文の概要: PartImageNet++ Dataset: Enhancing Visual Models with High-Quality Part Annotations
- arxiv url: http://arxiv.org/abs/2601.01454v1
- Date: Sun, 04 Jan 2026 09:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.360841
- Title: PartImageNet++ Dataset: Enhancing Visual Models with High-Quality Part Annotations
- Title(参考訳): PartImageNet++データセット: 高品質なパートアノテーションによるビジュアルモデルの拡張
- Authors: Xiao Li, Zilong Liu, Yining Liu, Zhuhong Li, Na Dong, Sitian Qin, Xiaolin Hu,
- Abstract要約: 我々は、ImageNet-1Kのすべてのカテゴリに詳細な部分アノテーションを提供するデータセットであるPartImageNet++ (PIN++)を紹介した。
カテゴリ毎に100の注釈付きイメージがあり、合計で100KイメージであるPIN++は、さまざまなオブジェクトカテゴリをカバーする最も包括的なデータセットである。
画像Net-1K上でのロバストな分類のためのMPM(Multiscale Part-supervised Recognition Model)を提案する。
- 参考スコア(独自算出の注目度): 31.652689569798003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the scarcity of high-quality part annotations in existing datasets, we introduce PartImageNet++ (PIN++), a dataset that provides detailed part annotations for all categories in ImageNet-1K. With 100 annotated images per category, totaling 100K images, PIN++ represents the most comprehensive dataset covering a diverse range of object categories. Leveraging PIN++, we propose a Multi-scale Part-supervised recognition Model (MPM) for robust classification on ImageNet-1K. We first trained a part segmentation network using PIN++ and used it to generate pseudo part labels for the remaining unannotated images. MPM then integrated a conventional recognition architecture with auxiliary bypass layers, jointly supervised by both pseudo part labels and the original part annotations. Furthermore, we conducted extensive experiments on PIN++, including part segmentation, object segmentation, and few-shot learning, exploring various ways to leverage part annotations in downstream tasks. Experimental results demonstrated that our approach not only enhanced part-based models for robust object recognition but also established strong baselines for multiple downstream tasks, highlighting the potential of part annotations in improving model performance. The dataset and the code are available at https://github.com/LixiaoTHU/PartImageNetPP.
- Abstract(参考訳): 既存のデータセットにおける高品質な部分アノテーションの不足に対処するため、ImageNet-1Kの全カテゴリに詳細な部分アノテーションを提供するデータセットであるPartImageNet++(PIN++)を紹介します。
カテゴリ毎に100の注釈付きイメージがあり、合計で100KイメージであるPIN++は、さまざまなオブジェクトカテゴリをカバーする最も包括的なデータセットである。
PIN++を活用することで、ImageNet-1Kのロバストな分類のためのMPM(Multi-scale Part-supervised Recognition Model)を提案する。
まず、PIN++を用いて部分分割ネットワークを訓練し、残りの未注釈画像の擬似部分ラベルを生成する。
その後、MPMは従来の認識アーキテクチャを補助的なバイパス層と統合し、疑似部分ラベルと元の部分アノテーションの両方で共同で管理した。
さらに、PIN++のパーシャルセグメンテーション、オブジェクトセグメンテーション、数ショット学習など、幅広い実験を行い、下流タスクでパーシャルアノテーションを活用する様々な方法を模索した。
実験の結果,ロバストなオブジェクト認識のためのパートベースモデルを改良しただけでなく,複数の下流タスクの強力なベースラインを確立し,モデル性能向上におけるパートアノテーションの可能性を強調した。
データセットとコードはhttps://github.com/LixiaoTHU/PartImageNetPPで公開されている。
関連論文リスト
- X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。
セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。
パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - PartImageNet++ Dataset: Scaling up Part-based Models for Robust Recognition [23.264326593735316]
深層学習に基づく物体認識システムは、様々な逆方向の摂動によって容易に騙される。
弱い頑丈さの1つの理由は、人間の認識プロセスのような部分ベースの帰納バイアスがないためかもしれない。
これによって、認識の対角的堅牢性を改善するために、いくつかのパートベース認識モデルが提案されている。
論文 参考訳(メタデータ) (2024-07-15T17:19:50Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - PartImageNet: A Large, High-Quality Dataset of Parts [16.730418538593703]
パートセグメンテーションアノテーションを備えた高品質なデータセットであるPartImageNetを提案する。
PartImageNetは、非厳密で明示的なオブジェクトを持つ一般的なクラスのセットに、部分レベルのアノテーションを提供するため、ユニークなものだ。
複数の視覚タスクで使用できるが、制限はない:Part Discovery、Few-shot Learning。
論文 参考訳(メタデータ) (2021-12-02T02:12:03Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。