論文の概要: Invariant Slot Attention: Object Discovery with Slot-Centric Reference
Frames
- arxiv url: http://arxiv.org/abs/2302.04973v1
- Date: Thu, 9 Feb 2023 23:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:55:25.867691
- Title: Invariant Slot Attention: Object Discovery with Slot-Centric Reference
Frames
- Title(参考訳): 不変スロット注意:スロット中心参照フレームによるオブジェクト発見
- Authors: Ondrej Biza, Sjoerd van Steenkiste, Mehdi S. M. Sajjadi, Gamaleldin F.
Elsayed, Aravindh Mahendran and Thomas Kipf
- Abstract要約: 自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。
本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。
提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
- 参考スコア(独自算出の注目度): 18.84636947819183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically discovering composable abstractions from raw perceptual data is
a long-standing challenge in machine learning. Recent slot-based neural
networks that learn about objects in a self-supervised manner have made
exciting progress in this direction. However, they typically fall short at
adequately capturing spatial symmetries present in the visual world, which
leads to sample inefficiency, such as when entangling object appearance and
pose. In this paper, we present a simple yet highly effective method for
incorporating spatial symmetries via slot-centric reference frames. We
incorporate equivariance to per-object pose transformations into the attention
and generation mechanism of Slot Attention by translating, scaling, and
rotating position encodings. These changes result in little computational
overhead, are easy to implement, and can result in large gains in terms of data
efficiency and overall improvements to object discovery. We evaluate our method
on a wide range of synthetic object discovery benchmarks namely CLEVR,
Tetrominoes, CLEVRTex, Objects Room and MultiShapeNet, and show promising
improvements on the challenging real-world Waymo Open dataset.
- Abstract(参考訳): 生の知覚データから構成可能な抽象化を自動的に発見することは、機械学習における長年の課題である。
自己監督的な方法でオブジェクトを学習する最近のスロットベースのニューラルネットワークは、この方向にエキサイティングな進歩を遂げている。
しかし、一般的には、視覚の世界に存在する空間対称性を適切に捉えられないため、オブジェクトの外観やポーズを絡めるようなサンプルの非効率性が生じる。
本稿では,スロット中心参照フレームによる空間対称性を組み込んだ簡易かつ高効率な手法を提案する。
対象毎のポーズ変換に対する等価性を,変換,スケーリング,回転位置符号化によるスロットアテンションの注意と生成機構に組み込む。
これらの変更は計算オーバーヘッドが少なく、実装が容易であり、データ効率とオブジェクト発見の全体的な改善の観点から大きな利益をもたらす可能性がある。
提案手法は,CLEVR,Tetrominoes,CLEVRTex,Objects Room,MultiShapeNetといった多種多様な合成オブジェクト探索ベンチマークを用いて評価し,現実のWaymo Openデータセットに有望な改善を示す。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients [0.8873228457453465]
空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。
本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
論文 参考訳(メタデータ) (2024-05-02T19:47:08Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。
本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文 参考訳(メタデータ) (2023-05-05T19:42:39Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。