論文の概要: QASA: Quality-Guided K-Adaptive Slot Attention for Unsupervised Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2601.12936v1
- Date: Mon, 19 Jan 2026 10:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.867014
- Title: QASA: Quality-Guided K-Adaptive Slot Attention for Unsupervised Object-Centric Learning
- Title(参考訳): QASA: 教師なし学習のための品質誘導型K適応スロットアテンション
- Authors: Tianran Ouyang, Xingping Dong, Jing Zhang, Mang Ye, Jun Chen, Bo Du,
- Abstract要約: スロットアテンション(Slot Attention)は、シーン内の異なるオブジェクトを一連の"スロット"にバインドするアプローチである。
従来のK適応法はスロット結合の品質を明示的に制限しない。
我々はQASA(Quality-Guided K-Adaptive Slot Attention)を提案する。
- 参考スコア(独自算出の注目度): 80.82392186401354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slot Attention, an approach that binds different objects in a scene to a set of "slots", has become a leading method in unsupervised object-centric learning. Most methods assume a fixed slot count K, and to better accommodate the dynamic nature of object cardinality, a few works have explored K-adaptive variants. However, existing K-adaptive methods still suffer from two limitations. First, they do not explicitly constrain slot-binding quality, so low-quality slots lead to ambiguous feature attribution. Second, adding a slot-count penalty to the reconstruction objective creates conflicting optimization goals between reducing the number of active slots and maintaining reconstruction fidelity. As a result, they still lag significantly behind strong K-fixed baselines. To address these challenges, we propose Quality-Guided K-Adaptive Slot Attention (QASA). First, we decouple slot selection from reconstruction, eliminating the mutual constraints between the two objectives. Then, we propose an unsupervised Slot-Quality metric to assess per-slot quality, providing a principled signal for fine-grained slot--object binding. Based on this metric, we design a Quality-Guided Slot Selection scheme that dynamically selects a subset of high-quality slots and feeds them into our newly designed gated decoder for reconstruction during training. At inference, token-wise competition on slot attention yields a K-adaptive outcome. Experiments show that QASA substantially outperforms existing K-adaptive methods on both real and synthetic datasets. Moreover, on real-world datasets QASA surpasses K-fixed methods.
- Abstract(参考訳): スロットアテンション(Slot Attention)は、シーン内の異なるオブジェクトを一連の"スロット"にバインドするアプローチであり、教師なしのオブジェクト中心学習において主要な手法となっている。
ほとんどの方法では、固定スロット数 K を仮定し、対象濃度の動的性質をよりよく適合させるため、いくつかの研究が K-適応不変量について検討している。
しかし、既存のK適応法には2つの制限がある。
まず、スロット結合の品質を明示的に制限しないため、低品質のスロットは不明瞭な特徴帰属をもたらす。
第二に、再生目標にスロット数ペナルティを加えることで、アクティブスロットの数を減らし、再構成フィリティを維持することの相反する最適化目標が生成される。
その結果、強いK固定基線よりもかなり遅れている。
これらの課題に対処するため、我々はQASA(Quality-Guided K-Adaptive Slot Attention)を提案する。
まず、スロット選択を再構成から切り離し、2つの目的間の相互制約を取り除く。
そこで本研究では,スロット単位の品質を評価するための教師なしSlot-Qualityメトリックを提案する。
この指標に基づいて,高品質スロットのサブセットを動的に選択し,トレーニング中の再構成のために新たに設計されたゲートデコーダに供給する品質ガイドスロット選択方式を設計する。
推論において、スロットアテンションにおけるトークンワイズ競合は、K適応的な結果をもたらす。
実験により、QASAは実データと合成データの両方において既存のK適応手法を大幅に上回っていることが示された。
さらに、現実世界のデータセットでは、QASAはK固定メソッドを超えている。
関連論文リスト
- Continuous Optimization for Feature Selection with Permutation-Invariant Embedding and Policy-Guided Search [31.460557834760873]
我々は,特徴選択の知識を連続的な埋め込み空間に保存するエンコーダ・デコーダパラダイムを開発した。
埋め込み空間の探索を指導するために,政策に基づく強化学習アプローチも採用している。
論文 参考訳(メタデータ) (2025-05-16T18:08:16Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Uncertainty-aware Clustering for Unsupervised Domain Adaptive Object
Re-identification [123.75412386783904]
最先端のオブジェクトRe-IDアプローチでは、クラスタリングアルゴリズムを採用して、ラベルのないターゲットドメインの擬似ラベルを生成する。
UDAタスクのための不確実性対応クラスタリングフレームワーク(UCF)を提案する。
我々のUCF法は、オブジェクトRe-IDのための複数のUDAタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2021-08-22T09:57:14Z) - Unpaired Image Enhancement with Quality-Attention Generative Adversarial
Network [92.01145655155374]
品質の注意を払わないデータに基づいて訓練された生成敵対ネットワーク(QAGAN)を提案する。
提案されたQAGANの重要な新規性は、ジェネレータの注入されたQAMにある。
提案手法は客観的評価と主観評価の両方において良好な性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T05:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。