論文の概要: When Slots Compete: Slot Merging in Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2603.11246v1
- Date: Wed, 11 Mar 2026 19:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.607047
- Title: When Slots Compete: Slot Merging in Object-Centric Learning
- Title(参考訳): スロットの競合: オブジェクト中心学習におけるスロットマージ
- Authors: Christos Chatzisavvas, Panagiotis Rigas, George Ioannakis, Vassilis Katsouros, Nikolaos Mitianoudis,
- Abstract要約: スロットベースのオブジェクト中心学習(Slot-based object-centric learning)は、イメージを遅延スロットのセットとして表現し、デコーダを使って画像や特徴に組み合わせる。
スロットのマージ: トレーニング中に重なり合うスロットをマージするスロットセット上の、ドロップインで軽量な操作。
スロットアテンションマップ間のSoft-IoUスコアとの重なりを定量化し、フローを保存するバリセントリックな更新によって選択したペアを組み合わせる。
- 参考スコア(独自算出の注目度): 5.298949136750754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slot-based object-centric learning represents an image as a set of latent slots with a decoder that combines them into an image or features. The decoder specifies how slots are combined into an output, but the slot set is typically fixed: the number of slots is chosen upfront and slots are only refined. This can lead to multiple slots competing for overlapping regions of the same entity rather than focusing on distinct regions. We introduce slot merging: a drop-in, lightweight operation on the slot set that merges overlapping slots during training. We quantify overlap with a Soft-IoU score between slot-attention maps and combine selected pairs via a barycentric update that preserves gradient flow. Merging follows a fixed policy, with the decision threshold inferred from overlap statistics, requiring no additional learnable modules. Integrated into the established feature-reconstruction pipeline of DINOSAUR, the proposed method improves object factorization and mask quality, surpassing other adaptive methods in object discovery and segmentation benchmarks.
- Abstract(参考訳): スロットベースのオブジェクト中心学習(Slot-based object-centric learning)は、イメージを遅延スロットのセットとして表現し、デコーダを使って画像や特徴に組み合わせる。
デコーダは、スロットが出力にどのように結合されるかを指定するが、スロットセットは通常固定される。
これにより、異なる領域に注目するのではなく、同じエンティティの重複する領域に競合する複数のスロットが生まれる可能性がある。
スロットのマージ: トレーニング中に重なり合うスロットをマージするスロットセット上の、ドロップインで軽量な操作。
スロットアテンションマップ間のSoft-IoUスコアとの重なりを定量化し、勾配流を保ったバリ中心更新によって選択したペアを組み合わせる。
マージは、重複統計から決定しきい値が推定される固定されたポリシーに従い、追加の学習可能なモジュールを必要としない。
提案手法は,DINOSAURの確立した特徴再構成パイプラインに統合され,オブジェクト発見およびセグメンテーションベンチマークにおいて,他の適応手法を超越して,オブジェクトの分解とマスク品質を向上させる。
関連論文リスト
- QASA: Quality-Guided K-Adaptive Slot Attention for Unsupervised Object-Centric Learning [80.82392186401354]
スロットアテンション(Slot Attention)は、シーン内の異なるオブジェクトを一連の"スロット"にバインドするアプローチである。
従来のK適応法はスロット結合の品質を明示的に制限しない。
我々はQASA(Quality-Guided K-Adaptive Slot Attention)を提案する。
論文 参考訳(メタデータ) (2026-01-19T10:42:07Z) - Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment [83.56510119503265]
事前訓練された拡散モデルによるスロット注意(SA)は、最近オブジェクト中心学習(OCL)の可能性を示唆しているが、スロットの絡み合いや、オブジェクトスロットと画像内容との弱いアライメントに悩まされている。
提案するCODA(Contrastive Object-centric Diffusion Alignment)は,(i)残響を吸収し,オブジェクトスロット間の干渉を低減するためにレジスタスロットを使用する単純な拡張であり,(ii)スロットイメージ対応を明示的に促進するためにコントラストアライメントロスを適用する。
論文 参考訳(メタデータ) (2026-01-03T16:10:18Z) - Slot Attention with Re-Initialization and Self-Distillation [33.38373596185185]
本稿では、オブジェクトの発見と認識のための再初期化と自己蒸留(DIAS)によるスロット注意を提案する。
DIASはオブジェクトの発見や認識といったOCLタスクの最先端のタスクを実現し、高度な視覚的予測と推論を改善している。
論文 参考訳(メタデータ) (2025-07-31T17:41:18Z) - MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning [17.083645139372912]
可変オブジェクト数に適応する,プラグアンドプレイ型SlotアテンションバリアントであるMetaSlotを紹介する。
本稿では,MetaSlotが既存のSlot Attentionの変種と比較して,大幅な性能向上と解釈可能なスロット表現を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T06:23:03Z) - Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots [65.302728042116]
意味的アノテーションがない場合の視覚知覚における物体の出現について検討する。
得られたモデルは、監督を受けておらず、事前訓練された特徴を一切使用していないが、画像の領域を複数の移動領域に分割することができる。
結果として得られる動き分節法は、未知のさまざまなオブジェクトをリアルタイムで処理することができる。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。