論文の概要: Grouped Discrete Representation for Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2411.02299v1
- Date: Mon, 04 Nov 2024 17:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:56.841747
- Title: Grouped Discrete Representation for Object-Centric Learning
- Title(参考訳): オブジェクト中心学習のためのグループ離散表現
- Authors: Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen,
- Abstract要約: 我々は,オブジェクト指向学習のためのtextitGroup Discrete Representation (GDR) を提案する。
GDRは、組織化されたチャネルグルーピングを通じて特徴を属性に分解し、これらの属性をインデックスを介して個別の表現に構成する。
- 参考スコア(独自算出の注目度): 18.44580501357929
- License:
- Abstract: Object-Centric Learning (OCL) can discover objects in images or videos by simply reconstructing the input. For better object discovery, representative OCL methods reconstruct the input as its Variational Autoencoder (VAE) intermediate representation, which suppresses pixel noises and promotes object separability by discretizing continuous super-pixels with template features. However, treating features as units overlooks their composing attributes, thus impeding model generalization; indexing features with scalar numbers loses attribute-level similarities and differences, thus hindering model convergence. We propose \textit{Grouped Discrete Representation} (GDR) for OCL. We decompose features into combinatorial attributes via organized channel grouping, and compose these attributes into discrete representation via tuple indexes. Experiments show that our GDR improves both Transformer- and Diffusion-based OCL methods consistently on various datasets. Visualizations show that our GDR captures better object separability.
- Abstract(参考訳): OCL(Object-Centric Learning)は、入力を再構築するだけで、画像やビデオ内のオブジェクトを見つけることができる。
オブジェクト発見を改善するため、OCL法は、入力を変分オートエンコーダ(VAE)中間表現として再構成し、画素ノイズを抑制し、テンプレート機能で連続したスーパーピクセルを識別することでオブジェクト分離性を促進する。
しかし、特徴を構成属性を見落とし、モデル一般化を妨げる単位として扱うと、スカラー数を持つインデックス化特徴は属性レベルの類似性と差を失い、モデル収束を妨げる。
OCL のための \textit{Grouped Discrete Representation} (GDR) を提案する。
特徴をグループ化されたチャネルグループ化によって組合せ属性に分解し、これらの属性をタプルインデックスを介して離散表現に分解する。
実験の結果,GDR は Transformer と Diffusion をベースとした OCL の手法を多種多様なデータセット上で一貫して改善することがわかった。
可視化によって、GDRはより優れたオブジェクト分離性をキャプチャすることを示している。
関連論文リスト
- Organized Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
代表的手法は画素レベルの情報冗長性を抑え、オブジェクトレベルの特徴集約を誘導する。
最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。
我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:13:05Z) - Grouped Discrete Representation Guides Object-Centric Learning [18.44580501357929]
TransformerベースのObject-Centric Discrete Learningは、高密度の画像やテクスチャをスパースなオブジェクトレベルの特徴に抽象化することができる。
特徴を属性にグループ化して数値でインデックス化することで,これらの問題に対処するためのtextitGrouped Representation (GDR) を提案する。
論文 参考訳(メタデータ) (2024-07-01T19:00:40Z) - Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。
本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文 参考訳(メタデータ) (2023-01-23T15:52:12Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Enhancing Latent Space Clustering in Multi-filter Seq2Seq Model: A
Reinforcement Learning Approach [0.0]
クラスタリングアルゴリズムを用いて潜在空間表現を解析する潜時拡張型マルチフィルタセq2seqモデル (LMS2S) を設計する。
セマンティック解析と機械翻訳の実験により,クラスタリングの品質とモデルの性能の正の相関が示された。
論文 参考訳(メタデータ) (2021-09-25T16:36:31Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z) - Image Clustering using an Augmented Generative Adversarial Network and
Information Maximization [9.614694312155798]
本稿では,GAN (Modified Generative Adversarial Network) と補助分類器からなるディープクラスタリングフレームワークを提案する。
提案手法は, CIFAR-10 と CIFAR-100 のクラスタリング手法を著しく上回り, STL10 と MNIST のデータセットと競合する。
論文 参考訳(メタデータ) (2020-11-08T22:20:33Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Invariant Feature Coding using Tensor Product Representation [75.62232699377877]
我々は,群不変特徴ベクトルが線形分類器を学習する際に十分な識別情報を含んでいることを証明した。
主成分分析やk平均クラスタリングにおいて,グループアクションを明示的に考慮する新たな特徴モデルを提案する。
論文 参考訳(メタデータ) (2019-06-05T07:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。