論文の概要: Grouped Discrete Representation for Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2411.02299v2
- Date: Mon, 09 Jun 2025 19:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.050922
- Title: Grouped Discrete Representation for Object-Centric Learning
- Title(参考訳): オブジェクト中心学習のためのグループ離散表現
- Authors: Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen,
- Abstract要約: オブジェクト指向学習のためのGDR(Grouped Discrete Representation)を提案する。
GDRは、主要なOCLメソッドと最先端のOCLメソッドの両方を、さまざまなデータセットで一貫して改善する。
- 参考スコア(独自算出の注目度): 18.44580501357929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-Centric Learning (OCL) aims to discover objects in images or videos by reconstructing the input. Representative methods achieve this by reconstructing the input as its Variational Autoencoder (VAE) discrete representations, which suppress (super-)pixel noise and enhance object separability. However, these methods treat features as indivisible units, overlooking their compositional attributes, and discretize features via scalar code indexes, losing attribute-level similarities and differences. We propose Grouped Discrete Representation (GDR) for OCL. For better generalization, features are decomposed into combinatorial attributes by organized channel grouping. For better convergence, features are quantized into discrete representations via tuple code indexes. Experiments demonstrate that GDR consistently improves both mainstream and state-of-the-art OCL methods across various datasets. Visualizations further highlight GDR's superior object separability and interpretability. The source code is available on https://github.com/Genera1Z/GroupedDiscreteRepresentation.
- Abstract(参考訳): オブジェクト中心学習(Object-Centric Learning, OCL)は、画像やビデオ内のオブジェクトを、入力を再構成することによって発見することを目的としている。
代表的手法は、入力を可変オートエンコーダ(VAE)離散表現として再構成し、(超)ピクセルノイズを抑制し、オブジェクト分離性を高める。
しかし、これらの手法は特徴を可分単位として扱い、構成属性を見下ろし、スカラーコードインデックスを通して特徴を識別し、属性レベルの類似点と相違点を失う。
OCLのためのGDR(Grouped Discrete Representation)を提案する。
より一般化するために、機能は組織化されたチャネルグループ化によって組合せ属性に分解される。
より良い収束のために、機能はタプルコードインデックスを介して離散表現に量子化される。
実験により、GDRはさまざまなデータセットにわたる主流および最先端のOCLメソッドの両方を一貫して改善することが示された。
可視化はさらに、GDRの優れたオブジェクト分離性と解釈可能性を強調している。
ソースコードはhttps://github.com/Genera1Z/GroupedDiscreteRepresentationで入手できる。
関連論文リスト
- Organized Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
代表的手法は画素レベルの情報冗長性を抑え、オブジェクトレベルの特徴集約を誘導する。
最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。
我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:13:05Z) - Grouped Discrete Representation Guides Object-Centric Learning [18.44580501357929]
TransformerベースのObject-Centric Discrete Learningは、高密度の画像やテクスチャをスパースなオブジェクトレベルの特徴に抽象化することができる。
特徴を属性にグループ化して数値でインデックス化することで,これらの問題に対処するためのtextitGrouped Representation (GDR) を提案する。
論文 参考訳(メタデータ) (2024-07-01T19:00:40Z) - Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。
本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文 参考訳(メタデータ) (2023-01-23T15:52:12Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Enhancing Latent Space Clustering in Multi-filter Seq2Seq Model: A
Reinforcement Learning Approach [0.0]
クラスタリングアルゴリズムを用いて潜在空間表現を解析する潜時拡張型マルチフィルタセq2seqモデル (LMS2S) を設計する。
セマンティック解析と機械翻訳の実験により,クラスタリングの品質とモデルの性能の正の相関が示された。
論文 参考訳(メタデータ) (2021-09-25T16:36:31Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z) - Image Clustering using an Augmented Generative Adversarial Network and
Information Maximization [9.614694312155798]
本稿では,GAN (Modified Generative Adversarial Network) と補助分類器からなるディープクラスタリングフレームワークを提案する。
提案手法は, CIFAR-10 と CIFAR-100 のクラスタリング手法を著しく上回り, STL10 と MNIST のデータセットと競合する。
論文 参考訳(メタデータ) (2020-11-08T22:20:33Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Invariant Feature Coding using Tensor Product Representation [75.62232699377877]
我々は,群不変特徴ベクトルが線形分類器を学習する際に十分な識別情報を含んでいることを証明した。
主成分分析やk平均クラスタリングにおいて,グループアクションを明示的に考慮する新たな特徴モデルを提案する。
論文 参考訳(メタデータ) (2019-06-05T07:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。