論文の概要: ContextFusion and Bootstrap: An Effective Approach to Improve Slot Attention-Based Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2509.02032v1
- Date: Tue, 02 Sep 2025 07:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.939877
- Title: ContextFusion and Bootstrap: An Effective Approach to Improve Slot Attention-Based Object-Centric Learning
- Title(参考訳): ContextFusionとBootstrap: スロット注意に基づくオブジェクト中心学習を改善する効果的なアプローチ
- Authors: Pinzhuo Tian, Shengjie Yang, Hang Yu, Alex C. Kot,
- Abstract要約: スロットアテンションに基づくフレームワークは、オブジェクト指向学習における主要なアプローチとして登場した。
現在の手法では、スロットからの再構築を可能にするため、トレーニングを通して安定した特徴空間が必要である。
本稿では,既存のスロットアテンションモデルにシームレスに統合可能な新しいContextFusionステージとBootstrapブランチを提案する。
- 参考スコア(独自算出の注目度): 53.19029595226767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key human ability is to decompose a scene into distinct objects and use their relationships to understand the environment. Object-centric learning aims to mimic this process in an unsupervised manner. Recently, the slot attention-based framework has emerged as a leading approach in this area and has been widely used in various downstream tasks. However, existing slot attention methods face two key limitations: (1) a lack of high-level semantic information. In current methods, image areas are assigned to slots based on low-level features such as color and texture. This makes the model overly sensitive to low-level features and limits its understanding of object contours, shapes, or other semantic characteristics. (2) The inability to fine-tune the encoder. Current methods require a stable feature space throughout training to enable reconstruction from slots, which restricts the flexibility needed for effective object-centric learning. To address these limitations, we propose a novel ContextFusion stage and a Bootstrap Branch, both of which can be seamlessly integrated into existing slot attention models. In the ContextFusion stage, we exploit semantic information from the foreground and background, incorporating an auxiliary indicator that provides additional contextual cues about them to enrich the semantic content beyond low-level features. In the Bootstrap Branch, we decouple feature adaptation from the original reconstruction phase and introduce a bootstrap strategy to train a feature-adaptive mechanism, allowing for more flexible adaptation. Experimental results show that our method significantly improves the performance of different SOTA slot attention models on both simulated and real-world datasets.
- Abstract(参考訳): 人間の重要な能力は、シーンを別々のオブジェクトに分解し、それらの関係を使って環境を理解することである。
オブジェクト指向学習は、このプロセスを教師なしの方法で模倣することを目的としている。
近年,スロットアテンションに基づくフレームワークがこの分野の先駆的アプローチとして登場し,様々な下流タスクで広く利用されている。
しかし,既存のスロットアテンション手法では,(1)高レベルのセマンティック情報が欠如している。
現在の方法では、画像領域は色やテクスチャといった低レベルの特徴に基づいてスロットに割り当てられている。
これにより、モデルは低レベルの特徴に過度に敏感になり、オブジェクトの輪郭、形状、その他の意味的特性に対する理解が制限される。
2)エンコーダを微調整できないこと。
現在の手法では、効果的なオブジェクト中心学習に必要な柔軟性を制限するスロットからの再構築を可能にするために、トレーニングを通して安定した特徴空間が必要である。
これらの制約に対処するために、新しいContextFusionステージとBootstrapブランチを提案し、どちらも既存のスロットアテンションモデルにシームレスに統合できる。
ContextFusionの段階では、フォアグラウンドと背景からのセマンティック情報を利用して、それらに関する追加の文脈的手がかりを取り入れ、低レベルの機能を超えてセマンティックコンテンツを強化する。
Bootstrapブランチでは、機能適応を元の再構築フェーズから切り離し、機能適応メカニズムをトレーニングするためのブートストラップ戦略を導入し、より柔軟な適応を可能にします。
実験結果から,本手法は,シミュレーションと実世界の両方のデータセット上で,異なるSOTAスロットアテンションモデルの性能を著しく向上することが示された。
関連論文リスト
- Weakly-Supervised Affordance Grounding Guided by Part-Level Semantic Priors [22.957096921873678]
擬似ラベルに基づく教師あり学習パイプラインを開発した。
擬似ラベルは、空き地から部品名へのマッピングによってガイドされる、既製の部品分割モデルから生成される。
これらのテクニックは,既成の基盤モデルに埋め込まれた静的オブジェクトの意味的知識を活用して,手頃な学習を改善する。
論文 参考訳(メタデータ) (2025-05-30T01:12:39Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Bootstrap Segmentation Foundation Model under Distribution Shift via Object-Centric Learning [36.77777881242487]
本稿では,オブジェクト中心の表現を生成するために,エンコーダの機能を自己教師付きで再構築する手法であるSlotSAMを紹介する。
これらの表現はファンデーションモデルに統合され、オブジェクトレベルの知覚能力を強化します。
論文 参考訳(メタデータ) (2024-08-29T07:16:28Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。