論文の概要: Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization
- arxiv url: http://arxiv.org/abs/2308.11369v1
- Date: Tue, 22 Aug 2023 11:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:08:29.179654
- Title: Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization
- Title(参考訳): クラスタリングに基づくスロット初期化による解釈可能なオブジェクト抽象化の強化
- Authors: Ning Gao, Bernard Hohmann, Gerhard Neumann
- Abstract要約: 本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
- 参考スコア(独自算出の注目度): 17.25953277219166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object-centric representations using slots have shown the advances towards
efficient, flexible and interpretable abstraction from low-level perceptual
features in a compositional scene. Current approaches randomize the initial
state of slots followed by an iterative refinement. As we show in this paper,
the random slot initialization significantly affects the accuracy of the final
slot prediction. Moreover, current approaches require a predetermined number of
slots from prior knowledge of the data, which limits the applicability in the
real world. In our work, we initialize the slot representations with clustering
algorithms conditioned on the perceptual input features. This requires an
additional layer in the architecture to initialize the slots given the
identified clusters. We design permutation invariant and permutation
equivariant versions of this layer to enable the exchangeable slot
representations after clustering. Additionally, we employ mean-shift clustering
to automatically identify the number of slots for a given scene. We evaluate
our method on object discovery and novel view synthesis tasks with various
datasets. The results show that our method outperforms prior works
consistently, especially for complex scenes.
- Abstract(参考訳): スロットを用いたオブジェクト中心表現は、構成シーンにおける低レベルの知覚的特徴から効率的で柔軟で解釈可能な抽象化への進歩を示している。
カレントアプローチはスロットの初期状態をランダムにし、その後反復的な洗練を行う。
本稿では,ランダムスロット初期化が最終スロット予測の精度に大きく影響することを示す。
さらに、現在のアプローチでは、データの事前知識から所定のスロット数を必要とするため、現実の世界での適用性が制限される。
本研究では,知覚的入力機能に基づくクラスタリングアルゴリズムを用いてスロット表現を初期化する。
これにより、特定されたクラスタのスロットを初期化するために、アーキテクチャの新たなレイヤが必要になる。
我々は、クラスタ化後の交換可能なスロット表現を可能にするために、この層の置換不変および置換同変バージョンを設計する。
さらに,各シーンのスロット数を自動的に識別するために平均シフトクラスタリングを用いる。
さまざまなデータセットを用いたオブジェクト発見と新しいビュー合成タスクの評価を行った。
その結果,本手法は,特に複雑なシーンにおいて,先行手法よりも優れていた。
関連論文リスト
- Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Object-Centric Learning with Slot Mixture Module [45.62331048595689]
本研究はガウス混合モデルに基づく学習可能なクラスタリング手法を用いる。
他のアプローチとは異なり、スロットはクラスタの中心としてだけでなく、クラスタと割り当てられたベクトル間の距離に関する情報も含んでいる。
Slot Attentionの代わりにこのアプローチを使用することで、オブジェクト中心のシナリオのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-11-08T12:34:36Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Sensitivity of Slot-Based Object-Centric Models to their Number of Slots [15.990209329609275]
スロットベースの手法のK$に対する感度と、それがデータ内のオブジェクトへの学習対応に与える影響について検討する。
トレーニング中、特にK$の誤った選択は、望ましい対象分解を得られない。
目的関数の選択とインスタンスレベルのアノテーションの導入によって、この振る舞いを適度に軽減できることを示す。
論文 参考訳(メタデータ) (2023-05-30T09:44:12Z) - Invariant Slot Attention: Object Discovery with Slot-Centric Reference
Frames [18.84636947819183]
自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。
本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。
提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2023-02-09T23:25:28Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - SE(3)-Equivariant Attention Networks for Shape Reconstruction in
Function Space [50.14426188851305]
本稿では,第1のSE(3)-equivariant coordinate-based networkを提案する。
入力を正規格子に整列させる従来の形状再構成法とは対照的に、不規則で無向な点雲を直接操作する。
提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:15Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - Coach: A Coarse-to-Fine Approach for Cross-domain Slot Filling [65.09621991654745]
クロスドメインスロットフィリングはタスク指向ダイアログシステムにおいて重要なタスクである。
クロスドメインスロットフィリングのための粗粒度アプローチ(Coach)を提案する。
実験結果から,本モデルはスロット充填における最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-24T13:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。