論文の概要: Unsupervised Part Discovery via Dual Representation Alignment
- arxiv url: http://arxiv.org/abs/2408.08108v1
- Date: Thu, 15 Aug 2024 12:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:56:12.279347
- Title: Unsupervised Part Discovery via Dual Representation Alignment
- Title(参考訳): 二重表現アライメントによる非教師なし部分発見
- Authors: Jiahao Xia, Wenjian Huang, Min Xu, Jianguo Zhang, Haimin Zhang, Ziyu Sheng, Dong Xu,
- Abstract要約: オブジェクト部分は、様々な下流タスクにおいて重要な中間表現として機能します。
これまでの研究によると、Vision Transformerはラベルなしでインスタンスレベルの注意を学習できる。
本稿では,新しいパラダイムを用いた非教師なし部分特異的アテンション学習を実現する。
- 参考スコア(独自算出の注目度): 31.100169532078095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object parts serve as crucial intermediate representations in various downstream tasks, but part-level representation learning still has not received as much attention as other vision tasks. Previous research has established that Vision Transformer can learn instance-level attention without labels, extracting high-quality instance-level representations for boosting downstream tasks. In this paper, we achieve unsupervised part-specific attention learning using a novel paradigm and further employ the part representations to improve part discovery performance. Specifically, paired images are generated from the same image with different geometric transformations, and multiple part representations are extracted from these paired images using a novel module, named PartFormer. These part representations from the paired images are then exchanged to improve geometric transformation invariance. Subsequently, the part representations are aligned with the feature map extracted by a feature map encoder, achieving high similarity with the pixel representations of the corresponding part regions and low similarity in irrelevant regions. Finally, the geometric and semantic constraints are applied to the part representations through the intermediate results in alignment for part-specific attention learning, encouraging the PartFormer to focus locally and the part representations to explicitly include the information of the corresponding parts. Moreover, the aligned part representations can further serve as a series of reliable detectors in the testing phase, predicting pixel masks for part discovery. Extensive experiments are carried out on four widely used datasets, and our results demonstrate that the proposed method achieves competitive performance and robustness due to its part-specific attention.
- Abstract(参考訳): オブジェクト部分は様々な下流タスクにおいて重要な中間表現として機能するが、部分レベルの表現学習は他の視覚タスクほど注目されていない。
これまでの研究は、Vision Transformerがラベルなしでインスタンスレベルの注意を学習できることを確立し、下流タスクの強化のために高品質なインスタンスレベルの表現を抽出した。
本稿では、新しいパラダイムを用いた非教師なしの注意学習を実現し、さらにその部分表現を用いて、部分発見性能を向上させる。
具体的には、異なる幾何変換を持つ同一画像からペア画像を生成し、これらのペア画像から複数の部分表現を、PartFormerという新しいモジュールを用いて抽出する。
ペア画像からのこれらの部分表現は、幾何学的変換不変性を改善するために交換される。
その後、特徴マップエンコーダにより抽出された特徴マップに部分表現を整列させ、対応する部分領域の画素表現と高い類似性、および無関係領域における低類似性を実現する。
最後に、幾何学的および意味的な制約を、部分固有の注意学習のアライメントの中間結果を通じて、部分表現に適用し、PartFormerが局所的なフォーカスを奨励し、部分表現が対応する部分の情報を明確に含めるように促します。
さらに、アライメントされた部分表現は、テストフェーズにおける一連の信頼できる検出器として機能し、部分発見のためのピクセルマスクを予測する。
広範に使用されている4つのデータセットに対して大規模な実験を行い,提案手法が性能と頑健性を両立させることを実証した。
関連論文リスト
- Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP [53.18562650350898]
私たちは、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。
また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。
フレームワークをさまざまなViT変種に適用することで、特定の画像機能に関するさまざまなコンポーネントの役割について、洞察を得ることができます。
論文 参考訳(メタデータ) (2024-06-03T17:58:43Z) - Mitigating the Effect of Incidental Correlations on Part-based Learning [50.682498099720114]
部分ベースの表現は、より解釈可能で、限られたデータでより一般化できる。
パートベース表現のための2つの革新的な正規化手法を提案する。
我々は、ベンチマークデータセット上の数ショットの学習タスクに対して、最先端(SoTA)パフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-30T13:44:48Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。