論文の概要: Unsupervised Structural Scene Decomposition via Foreground-Aware Slot Attention with Pseudo-Mask Guidance
- arxiv url: http://arxiv.org/abs/2512.02685v1
- Date: Tue, 02 Dec 2025 12:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.855551
- Title: Unsupervised Structural Scene Decomposition via Foreground-Aware Slot Attention with Pseudo-Mask Guidance
- Title(参考訳): Pseudo-Mask Guidanceによる前景認識スロットアテンションによる教師なし構造シーンの分解
- Authors: Huankun Sheng, Ming Li, Yixiang Wei, Yeying Fan, Yu-Hui Wen, Tieliang Gong, Yong-Jin Liu,
- Abstract要約: 本研究では,フォアグラウンドを背景から切り離して正確なオブジェクト発見を可能にする2段階フレームワークであるフォアグラウンド・アウェア・スロット・アテンション(FASA)を提案する。
第1段階では、FASAは背景領域と背景領域を区別する粗いシーン分解を行う。
第2段階では、第1スロットが背景を捉え、残りのスロットが個々の前景オブジェクトを表現するために競うマスク付きスロットアテンション機構を導入する。
合成データセットと実世界のデータセットの両方の実験は、FASAが一貫して最先端の手法より優れていることを示した。
- 参考スコア(独自算出の注目度): 36.23578004588688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in object-centric representation learning have shown that slot attention-based methods can effectively decompose visual scenes into object slot representations without supervision. However, existing approaches typically process foreground and background regions indiscriminately, often resulting in background interference and suboptimal instance discovery performance on real-world data. To address this limitation, we propose Foreground-Aware Slot Attention (FASA), a two-stage framework that explicitly separates foreground from background to enable precise object discovery. In the first stage, FASA performs a coarse scene decomposition to distinguish foreground from background regions through a dual-slot competition mechanism. These slots are initialized via a clustering-based strategy, yielding well-structured representations of salient regions. In the second stage, we introduce a masked slot attention mechanism where the first slot captures the background while the remaining slots compete to represent individual foreground objects. To further address over-segmentation of foreground objects, we incorporate pseudo-mask guidance derived from a patch affinity graph constructed with self-supervised image features to guide the learning of foreground slots. Extensive experiments on both synthetic and real-world datasets demonstrate that FASA consistently outperforms state-of-the-art methods, validating the effectiveness of explicit foreground modeling and pseudo-mask guidance for robust scene decomposition and object-coherent representation. Code will be made publicly available.
- Abstract(参考訳): オブジェクト中心表現学習の最近の進歩は、視覚シーンを監督なしで効果的にオブジェクトスロット表現に分解できるスロットアテンションベースの手法が示されている。
しかし、既存のアプローチは通常、前景と背景の領域を無差別に処理し、多くの場合、実世界のデータに対するバックグラウンド干渉とサブ最適インスタンス発見性能をもたらす。
この制限に対処するために、フォアグラウンドからフォアグラウンドを明示的に分離し、正確なオブジェクト発見を可能にする2段階のフレームワークであるフォアグラウンド・アウェア・スロット・アテンション(FASA)を提案する。
第1段階では、FASAは、二重スロット競合機構を介して、背景領域と背景領域とを区別する粗いシーン分解を行う。
これらのスロットはクラスタリングベースの戦略によって初期化され、正常な領域のよく構造化された表現が得られる。
第2段階では、第1スロットが背景を捉え、残りのスロットが個々の前景オブジェクトを表現するために競うマスク付きスロットアテンション機構を導入する。
本研究では,フォアグラウンドオブジェクトのオーバーセグメンテーションに対処するため,フォアグラウンドスロットの学習をガイドするために,自己教師付き画像特徴を持つパッチ親和性グラフから擬似マスクガイダンスを組み込んだ。
合成と実世界の両方のデータセットに対する大規模な実験により、FASAは一貫して最先端の手法より優れており、ロバストなシーン分解とオブジェクトコヒーレントな表現のための明示的な前景モデリングと擬似マスクガイダンスの有効性が検証されている。
コードは公開されます。
関連論文リスト
- Improving Classification of Occluded Objects through Scene Context [0.0]
シーンコンテキストは、生物学的視覚における物体認識を助けることが知られている。
本研究では,既存の地域提案ネットワーク-深部畳み込みニューラルネットワーク(RPN-DCNN)オブジェクト検出ネットワークに2つの異なるシーンベース情報融合技術を用いてロバスト性を加えることを試みる。
論文 参考訳(メタデータ) (2025-10-30T16:51:18Z) - Background Matters Too: A Language-Enhanced Adversarial Framework for Person Re-Identification [1.409283414986451]
背景セマンティクスはReIDのフォアグラウンドセマンティクスと同じくらい重要であると我々は主張する。
本稿では,フォアグラウンドと背景情報を協調的にモデル化するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-03T05:38:22Z) - Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。
P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。
未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文 参考訳(メタデータ) (2025-04-07T08:53:14Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Semantic Reinforced Attention Learning for Visual Place Recognition [15.84086970453363]
大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。
本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。
都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-08-19T02:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。