論文の概要: Slot Attention with Re-Initialization and Self-Distillation
- arxiv url: http://arxiv.org/abs/2507.23755v1
- Date: Thu, 31 Jul 2025 17:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.137389
- Title: Slot Attention with Re-Initialization and Self-Distillation
- Title(参考訳): 再初期化と自己蒸留によるスロット注意
- Authors: Rongzhen Zhao, Yi Zhao, Juho Kannala, Joni Pajarinen,
- Abstract要約: 本稿では、オブジェクトの発見と認識のための再初期化と自己蒸留(DIAS)によるスロット注意を提案する。
DIASはオブジェクトの発見や認識といったOCLタスクの最先端のタスクを実現し、高度な視覚的予測と推論を改善している。
- 参考スコア(独自算出の注目度): 22.024377849671033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike popular solutions based on dense feature maps, Object-Centric Learning (OCL) represents visual scenes as sub-symbolic object-level feature vectors, termed slots, which are highly versatile for tasks involving visual modalities. OCL typically aggregates object superpixels into slots by iteratively applying competitive cross attention, known as Slot Attention, with the slots as the query. However, once initialized, these slots are reused naively, causing redundant slots to compete with informative ones for representing objects. This often results in objects being erroneously segmented into parts. Additionally, mainstream methods derive supervision signals solely from decoding slots into the input's reconstruction, overlooking potential supervision based on internal information. To address these issues, we propose Slot Attention with re-Initialization and self-Distillation (DIAS): $\emph{i)}$ We reduce redundancy in the aggregated slots and re-initialize extra aggregation to update the remaining slots; $\emph{ii)}$ We drive the bad attention map at the first aggregation iteration to approximate the good at the last iteration to enable self-distillation. Experiments demonstrate that DIAS achieves state-of-the-art on OCL tasks like object discovery and recognition, while also improving advanced visual prediction and reasoning. Our code is available on https://github.com/Genera1Z/DIAS.
- Abstract(参考訳): 密集した特徴マップに基づく一般的なソリューションとは異なり、オブジェクト中心学習(OCL)は視覚シーンをサブシンボリックなオブジェクトレベルの特徴ベクトルとして表現する。
OCLは通常、スロットをクエリとしてスロットアテンションとして知られる競合するクロスアテンションを反復的に適用することで、オブジェクトのスーパーピクセルをスロットに集約する。
しかし、一旦初期化されると、これらのスロットは自然に再利用され、冗長なスロットはオブジェクトを表現するための情報的なスロットと競合する。
これはしばしば、オブジェクトを誤って部品に分割する。
さらに、主流の手法は、内部情報に基づく潜在的監視を見越して、入力の再構成にスロットをデコードすることのみから、監督信号を導出する。
これらの問題に対処するために、再初期化と自己蒸留(DIAS): $\emph{i)}$ 集約されたスロットの冗長性を低減し、残りのスロットを更新するために余分なアグリゲーションを再初期化する。
実験により、DIASはオブジェクトの発見や認識といったOCLタスクの最先端のタスクを実現し、高度な視覚的予測と推論を改善した。
私たちのコードはhttps://github.com/Genera1Z/DIASで利用可能です。
関連論文リスト
- MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning [11.365829102707014]
可変オブジェクト数に適応する,プラグアンドプレイ型SlotアテンションバリアントであるMetaSlotを紹介する。
本稿では,MetaSlotが既存のSlot Attentionの変種と比較して,大幅な性能向上と解釈可能なスロット表現を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T06:23:03Z) - Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文 参考訳(メタデータ) (2025-04-09T17:59:05Z) - Attention Normalization Impacts Cardinality Generalization in Slot Attention [6.9099729240700825]
そこで本研究では,スロット数やオブジェクト数に応じてスロットアテンションの機能を向上する,元の正規化方式の代替案を提案し,検討する。
新たに提案された正規化は、通常のSlot Attentionモジュールの変更を簡単に実装できる最小限のものである。
論文 参考訳(メタデータ) (2024-07-04T22:09:01Z) - Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。