論文の概要: Organized Grouped Discrete Representation for Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2409.03553v1
- Date: Thu, 5 Sep 2024 14:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:15:17.240381
- Title: Organized Grouped Discrete Representation for Object-Centric Learning
- Title(参考訳): 物体中心学習のための集団離散表現の組織化
- Authors: Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen,
- Abstract要約: 代表的手法は画素レベルの情報冗長性を抑え、オブジェクトレベルの特徴集約を誘導する。
最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。
我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。
- 参考スコア(独自算出の注目度): 18.44580501357929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-Centric Learning (OCL) represents dense image or video pixels as sparse object features. Representative methods utilize discrete representation composed of Variational Autoencoder (VAE) template features to suppress pixel-level information redundancy and guide object-level feature aggregation. The most recent advancement, Grouped Discrete Representation (GDR), further decomposes these template features into attributes. However, its naive channel grouping as decomposition may erroneously group channels belonging to different attributes together and discretize them as sub-optimal template attributes, which losses information and harms expressivity. We propose Organized GDR (OGDR) to organize channels belonging to the same attributes together for correct decomposition from features into attributes. In unsupervised segmentation experiments, OGDR is fully superior to GDR in augmentating classical transformer-based OCL methods; it even improves state-of-the-art diffusion-based ones. Codebook PCA and representation similarity analyses show that compared with GDR, our OGDR eliminates redundancy and preserves information better for guiding object representation learning. The source code is available in the supplementary material.
- Abstract(参考訳): OCL(Object-Centric Learning)は、画像やビデオのピクセルをスパースオブジェクトの特徴として表現する。
代表的手法は、可変オートエンコーダ(VAE)テンプレート特徴からなる離散表現を利用して、画素レベルの情報冗長性とガイドオブジェクトレベルの特徴集約を抑える。
最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。
しかし、分解としてグループ化する単純チャネルは、異なる属性に属するチャネルを誤ってグループ化し、それらを準最適テンプレート属性として識別し、情報を失い、表現性を損なう。
我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。
教師なしセグメンテーション実験では、OGDRは古典的なトランスフォーマーベースのOCL法の拡張においてGDRよりも優れている。
コードブックPCAと表現類似性分析により、GDRと比較して、OGDRは冗長性を排除し、オブジェクト表現学習の指針となる情報を保存する。
ソースコードは補足資料で入手できる。
関連論文リスト
- Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
我々は,オブジェクト指向学習のためのtextitGroup Discrete Representation (GDR) を提案する。
GDRは、組織化されたチャネルグルーピングを通じて特徴を属性に分解し、これらの属性をインデックスを介して個別の表現に構成する。
論文 参考訳(メタデータ) (2024-11-04T17:25:10Z) - Grouped Discrete Representation Guides Object-Centric Learning [18.44580501357929]
TransformerベースのObject-Centric Discrete Learningは、高密度の画像やテクスチャをスパースなオブジェクトレベルの特徴に抽象化することができる。
特徴を属性にグループ化して数値でインデックス化することで,これらの問題に対処するためのtextitGrouped Representation (GDR) を提案する。
論文 参考訳(メタデータ) (2024-07-01T19:00:40Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Attributes Grouping and Mining Hashing for Fine-Grained Image Retrieval [24.8065557159198]
微粒な画像検索のための属性グループとマイニングハッシュ(AGMH)を提案する。
AGMHはカテゴリ固有の視覚属性を複数の記述子にグループ化し、包括的特徴表現を生成する。
AGMHは、きめ細かいベンチマークデータセットの最先端メソッドに対して、一貫して最高のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-11-10T14:01:56Z) - Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。
本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文 参考訳(メタデータ) (2023-01-23T15:52:12Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z) - Image Clustering using an Augmented Generative Adversarial Network and
Information Maximization [9.614694312155798]
本稿では,GAN (Modified Generative Adversarial Network) と補助分類器からなるディープクラスタリングフレームワークを提案する。
提案手法は, CIFAR-10 と CIFAR-100 のクラスタリング手法を著しく上回り, STL10 と MNIST のデータセットと競合する。
論文 参考訳(メタデータ) (2020-11-08T22:20:33Z) - Representation Decomposition for Image Manipulation and Beyond [29.991777603295816]
分解GAN(dec-GAN)は、既存の潜在表現をコンテンツや属性に分解することができる。
複数の画像データセットに対する実験により、最近の表現不絡合モデルよりもデジGANの有効性とロバスト性が確認された。
論文 参考訳(メタデータ) (2020-11-02T07:36:13Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。