論文の概要: Unsupervised Part Discovery via Descriptor-Based Masked Image Restoration with Optimized Constraints
- arxiv url: http://arxiv.org/abs/2507.11985v1
- Date: Wed, 16 Jul 2025 07:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.278169
- Title: Unsupervised Part Discovery via Descriptor-Based Masked Image Restoration with Optimized Constraints
- Title(参考訳): 最適制約を用いたディスクリプタベースマスケ画像復元による教師なし部分発見
- Authors: Jiahao Xia, Yike Wu, Wenjian Huang, Jianguo Zhang, Jian Zhang,
- Abstract要約: 部分レベルの特徴は画像の理解に不可欠であるが、詳細なラベルがないため、それに焦点を当てる研究はほとんどない。
我々は、Masked Part Autoencoder (MPAE) という、教師なし部分発見のためのより効果的なパラダイムを提案する。
MPAEは入力から部分記述子と特徴マップを学び、元のイメージのマスクされたバージョンからパッチ機能を生成する。
複雑なシナリオであっても、実際のオブジェクトの形と密接にマッチする意味のある部分をしっかりと発見します。
- 参考スコア(独自算出の注目度): 14.712229958844333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Part-level features are crucial for image understanding, but few studies focus on them because of the lack of fine-grained labels. Although unsupervised part discovery can eliminate the reliance on labels, most of them cannot maintain robustness across various categories and scenarios, which restricts their application range. To overcome this limitation, we present a more effective paradigm for unsupervised part discovery, named Masked Part Autoencoder (MPAE). It first learns part descriptors as well as a feature map from the inputs and produces patch features from a masked version of the original images. Then, the masked regions are filled with the learned part descriptors based on the similarity between the local features and descriptors. By restoring these masked patches using the part descriptors, they become better aligned with their part shapes, guided by appearance features from unmasked patches. Finally, MPAE robustly discovers meaningful parts that closely match the actual object shapes, even in complex scenarios. Moreover, several looser yet more effective constraints are proposed to enable MPAE to identify the presence of parts across various scenarios and categories in an unsupervised manner. This provides the foundation for addressing challenges posed by occlusion and for exploring part similarity across multiple categories. Extensive experiments demonstrate that our method robustly discovers meaningful parts across various categories and scenarios. The code is available at the project https://github.com/Jiahao-UTS/MPAE.
- Abstract(参考訳): 部分レベルの特徴は画像の理解に不可欠であるが、詳細なラベルがないため、それに焦点を当てる研究はほとんどない。
教師なしの部分発見はラベルへの依存をなくすことができるが、そのほとんどは、アプリケーション範囲を制限するさまざまなカテゴリやシナリオの堅牢性を維持することはできない。
この制限を克服するために,Masked Part Autoencoder (MPAE) という,教師なし部分発見のためのより効果的なパラダイムを提案する。
まず、入力から部分記述子と特徴マップを学び、元の画像のマスクされたバージョンからパッチ機能を生成する。
そして、ローカル特徴とディスクリプタの類似性に基づいて、マスクされた領域を学習した部分記述子で埋める。
部分ディスクリプタを使用してこれらのマスクされたパッチを復元することで、未加工のパッチから外観の特徴によってガイドされる、部分の形状と整合性が向上する。
最後に、MPAEは、複雑なシナリオであっても、実際のオブジェクト形状と密にマッチする意味のある部分を見つけ出す。
さらに、MPAEが様々なシナリオやカテゴリにまたがる部分の存在を教師なしで特定できるようにするために、より緩く、より効果的な制約がいくつか提案されている。
これは、隠蔽によって引き起こされる課題に対処し、複数のカテゴリにまたがる部分的類似性を探求する基盤を提供する。
大規模な実験により,本手法は様々なカテゴリやシナリオにまたがる有意義な部分をしっかりと発見できることが実証された。
コードはプロジェクトのhttps://github.com/Jiahao-UTS/MPAEで公開されている。
関連論文リスト
- DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - Masked Multi-Query Slot Attention for Unsupervised Object Discovery [7.613552182035413]
本研究では,DINO ViTの特徴をスロットと呼ばれる一連の表現によって再構成するオブジェクト中心のアプローチについて考察する。
本稿では,背景領域を無視した入力特徴のマスキング手法を提案する。
実験結果とPASCAL-VOC 2012データセットの短縮は、各コンポーネントの重要性を示し、それらの組み合わせがオブジェクトのローカライゼーションを継続的に改善することを示す。
論文 参考訳(メタデータ) (2024-04-30T15:51:05Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。
周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。
多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance
Segmentation [22.930296667684125]
本稿では,セマンティック・アウェア・インスタンス・マスク(SIM)生成パラダイムを開発することによって,新しいボックス管理型インスタンス・セグメンテーション手法を提案する。
セマンティック・アウェア・プロトタイプは,同じセマンティクスの異なるインスタンスを区別できないことを考慮し,自己補正機構を提案する。
実験結果から,提案手法が他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-14T05:59:25Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。