論文の概要: MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2505.20772v1
- Date: Tue, 27 May 2025 06:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.444853
- Title: MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning
- Title(参考訳): MetaSlot: オブジェクト中心学習における固定数のスロットを分解する
- Authors: Hongjia Liu, Rongzhen Zhao, Haohan Chen, Joni Pajarinen,
- Abstract要約: 可変オブジェクト数に適応する,プラグアンドプレイ型SlotアテンションバリアントであるMetaSlotを紹介する。
本稿では,MetaSlotが既存のSlot Attentionの変種と比較して,大幅な性能向上と解釈可能なスロット表現を実現していることを示す。
- 参考スコア(独自算出の注目度): 11.365829102707014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning object-level, structured representations is widely regarded as a key to better generalization in vision and underpins the design of next-generation Pre-trained Vision Models (PVMs). Mainstream Object-Centric Learning (OCL) methods adopt Slot Attention or its variants to iteratively aggregate objects' super-pixels into a fixed set of query feature vectors, termed slots. However, their reliance on a static slot count leads to an object being represented as multiple parts when the number of objects varies. We introduce MetaSlot, a plug-and-play Slot Attention variant that adapts to variable object counts. MetaSlot (i) maintains a codebook that holds prototypes of objects in a dataset by vector-quantizing the resulting slot representations; (ii) removes duplicate slots from the traditionally aggregated slots by quantizing them with the codebook; and (iii) injects progressively weaker noise into the Slot Attention iterations to accelerate and stabilize the aggregation. MetaSlot is a general Slot Attention variant that can be seamlessly integrated into existing OCL architectures. Across multiple public datasets and tasks--including object discovery and recognition--models equipped with MetaSlot achieve significant performance gains and markedly interpretable slot representations, compared with existing Slot Attention variants.
- Abstract(参考訳): オブジェクトレベルの構造化された表現を学習することは、視覚におけるより良い一般化の鍵として広く考えられ、次世代の事前学習ビジョンモデル(PVM)の設計の基盤となっている。
Mainstream Object-Centric Learning (OCL)メソッドは、Slot Attentionまたはその変種を採用して、オブジェクトのスーパーピクセルを固定されたクエリ特徴ベクトル、すなわちスロットに反復的に集約する。
しかし、静的なスロットカウントに依存しているため、オブジェクトの数が変化すると、オブジェクトは複数のパーツとして表現される。
可変オブジェクト数に適応する,プラグアンドプレイ型SlotアテンションバリアントであるMetaSlotを紹介する。
MetaSlot
i) 結果のスロット表現をベクトル量子化することにより、データセットにオブジェクトのプロトタイプを保持するコードブックを維持する。
(ii)コードブックで定量化することにより、従来の集約スロットから重複スロットを除去する。
3) Slot Attention イテレーションに徐々に弱いノイズを注入し、アグリゲーションを加速し安定化させる。
MetaSlotは一般的なSlot Attentionの亜種で、既存のOCLアーキテクチャにシームレスに統合できる。
複数の公開データセットとタスク — MetaSlotを備えたオブジェクトの検出と認識を含む — を通じて、既存のSlot Attentionの亜種と比較して、大幅なパフォーマンス向上と大幅な解釈可能なスロット表現を実現している。
関連論文リスト
- Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文 参考訳(メタデータ) (2025-04-09T17:59:05Z) - Guided Latent Slot Diffusion for Object-Centric Learning [13.721373817758307]
GLASSは、生成したキャプションを誘導信号として使用して、スロットとオブジェクトとの整合性を向上するオブジェクト中心モデルである。
物体発見のため、GLASSは従来のSOTA法に比べてmIoUの35%、+10%の相対的な改善を達成している。
セグメンテーションタスクでは、GLASSはそのタスク用に特別に設計されたSOTAの弱い教師付きおよび言語ベースのセグメンテーションモデルを上回っている。
論文 参考訳(メタデータ) (2024-07-25T10:38:32Z) - Attention Normalization Impacts Cardinality Generalization in Slot Attention [6.9099729240700825]
そこで本研究では,スロット数やオブジェクト数に応じてスロットアテンションの機能を向上する,元の正規化方式の代替案を提案し,検討する。
新たに提案された正規化は、通常のSlot Attentionモジュールの変更を簡単に実装できる最小限のものである。
論文 参考訳(メタデータ) (2024-07-04T22:09:01Z) - Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Masked Multi-Query Slot Attention for Unsupervised Object Discovery [7.613552182035413]
本研究では,DINO ViTの特徴をスロットと呼ばれる一連の表現によって再構成するオブジェクト中心のアプローチについて考察する。
本稿では,背景領域を無視した入力特徴のマスキング手法を提案する。
実験結果とPASCAL-VOC 2012データセットの短縮は、各コンポーネントの重要性を示し、それらの組み合わせがオブジェクトのローカライゼーションを継続的に改善することを示す。
論文 参考訳(メタデータ) (2024-04-30T15:51:05Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。