論文の概要: MUFASA: A Multi-Layer Framework for Slot Attention
- arxiv url: http://arxiv.org/abs/2602.07544v1
- Date: Sat, 07 Feb 2026 13:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.682574
- Title: MUFASA: A Multi-Layer Framework for Slot Attention
- Title(参考訳): MUFASA:スロット注意のための多層フレームワーク
- Authors: Sebastian Bock, Leonie Schüßler, Krishnakant Singh, Simone Schaub-Meyer, Stefan Roth,
- Abstract要約: MUFASAは、教師なしオブジェクトセグメンテーションに対する注意度に基づくアプローチをスロットするプラグイン・アンド・プレイ・フレームワークである。
我々のモデルは、ViTエンコーダの複数の特徴層にまたがるスロットアテンションを計算し、それらのセマンティックリッチ性を完全に活用する。
複数の層で得られたスロットを統一されたオブジェクト中心表現に集約する融合戦略を提案する。
- 参考スコア(独自算出の注目度): 16.325300304610035
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unsupervised object-centric learning (OCL) decomposes visual scenes into distinct entities. Slot attention is a popular approach that represents individual objects as latent vectors, called slots. Current methods obtain these slot representations solely from the last layer of a pre-trained vision transformer (ViT), ignoring valuable, semantically rich information encoded across the other layers. To better utilize this latent semantic information, we introduce MUFASA, a lightweight plug-and-play framework for slot attention-based approaches to unsupervised object segmentation. Our model computes slot attention across multiple feature layers of the ViT encoder, fully leveraging their semantic richness. We propose a fusion strategy to aggregate slots obtained on multiple layers into a unified object-centric representation. Integrating MUFASA into existing OCL methods improves their segmentation results across multiple datasets, setting a new state of the art while simultaneously improving training convergence with only minor inference overhead.
- Abstract(参考訳): 教師なしオブジェクト中心学習(OCL)は、視覚シーンを別個の実体に分解する。
スロットアテンション(英: Slot attention)は、スロットと呼ばれる、個々のオブジェクトを潜在ベクトルとして表現する一般的なアプローチである。
現在の方法では、これらのスロット表現は、事前訓練された視覚変換器(ViT)の最後の層からのみ取得され、他の層にまたがって符号化された意味的に豊かな貴重な情報を無視している。
この潜伏意味情報をうまく活用するために,無教師対象セグメンテーションに対する注意度に基づくアプローチをスロットする軽量なプラグイン・アンド・プレイ・フレームワークMUFASAを導入する。
我々のモデルは、ViTエンコーダの複数の特徴層にまたがるスロットアテンションを計算し、それらのセマンティックリッチ性を完全に活用する。
複数の層で得られたスロットを統一されたオブジェクト中心表現に集約する融合戦略を提案する。
MUFASAを既存のOCLメソッドに統合することで、複数のデータセットにまたがるセグメンテーション結果が改善され、新たな最先端の設定と、マイナーな推論オーバーヘッドによるトレーニング収束が同時に向上する。
関連論文リスト
- Wasserstein-Aligned Hyperbolic Multi-View Clustering [58.29261653100388]
本稿では,マルチビュークラスタリングのための新しいWasserstein-Aligned Hyperbolic(WAH)フレームワークを提案する。
本手法はビュー固有の双曲エンコーダを用いて特徴をローレンツ多様体に埋め込んで階層的セマンティックモデリングを行う。
論文 参考訳(メタデータ) (2025-12-10T07:56:19Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning [17.083645139372912]
可変オブジェクト数に適応する,プラグアンドプレイ型SlotアテンションバリアントであるMetaSlotを紹介する。
本稿では,MetaSlotが既存のSlot Attentionの変種と比較して,大幅な性能向上と解釈可能なスロット表現を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T06:23:03Z) - Masked Multi-Query Slot Attention for Unsupervised Object Discovery [7.613552182035413]
本研究では,DINO ViTの特徴をスロットと呼ばれる一連の表現によって再構成するオブジェクト中心のアプローチについて考察する。
本稿では,背景領域を無視した入力特徴のマスキング手法を提案する。
実験結果とPASCAL-VOC 2012データセットの短縮は、各コンポーネントの重要性を示し、それらの組み合わせがオブジェクトのローカライゼーションを継続的に改善することを示す。
論文 参考訳(メタデータ) (2024-04-30T15:51:05Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning [28.368429312400885]
シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。
提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T07:07:29Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。